火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

AI快讯 2hours ago AICAT
0 0
火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

智东西

作者 | ZeR0

编辑 | 漠影

根据智东西5月14日的报道,火山引擎于5月13日举行的AI创新巡展·上海站活动中,展示了大模型的全景视图,推出了豆包·视频生成模型Seedance 1.0 lite以及豆包1.5·视觉深度思考模型,并对豆包·音乐模型进行了升级。此外,Data Agent也首次亮相,国内首款AI原生IDE产品Trae已接入豆包深度思考模型,并增强了多个重要功能。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

目前,火山方舟的覆盖范围包括语言处理、深度思考、视觉识别、语音交互及GUI Agent等多种模型。

在此次会议上,火山引擎的副总裁张鑫提到,模型、计算能力、数据和安全性构成了人工智能时代的新基础设施。火山引擎对外提供了这四个核心要素:

在模型方面,豆包大模型已支持超过50个内部实际场景和30多个行业企业的联合创新,截至4月份,日均tokens调用量已超过12.7万亿。

而在算力方面,火山引擎的AI云原生提供了强大的系统承载能力,包括丰富的计算资源、推理层的优化和系统调度能力的综合提升。

数据方面,借助数据飞轮2.0和Data Agent,用户能够基于动态的多模态数据湖,智能地重构数据关系。

在安全性上,火山引擎的大模型安全方案提供了PCC私密云计算平台,能够有效解决端云协同计算过程中的数据泄露问题,并通过大模型防火墙消除多种攻击隐患。

一、视频生成模型:效果卓越、生成迅速且成本低

新发布的豆包视频生成模型Seedance 1.0 lite,能够支持从文本生成视频及从图像生成视频,生成时长可选择5秒或10秒,分辨率则有480P和720P可供选择。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

企业用户可以通过火山方舟平台访问该模型API,个人用户则可以在豆包App或即梦体验中使用。

作为豆包视频生成模型系列中较小参数量的版本,Seedance 1.0 lite模型实现了两项重要突破:不仅提升了影视级视频生成的质量,而且显著加快了生成速度,同时兼顾效果、效率和性价比。

(1)更精准的指令执行:得益于强大的语义理解能力,用户可以细致地控制人物的外貌、气质、服装风格和表情动作等,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面表现出色。

(2)更丰富的影视级运镜:该模型支持360度环绕、航拍、变焦、平移、跟随及手持等多种镜头语言,提供细腻高清的基础画质和影视级美感。

(3)更合理的运动交互:通过分析动作时间序列与空间关系,提升人物与物体之间自然流畅的交互动作,使运动轨迹和受力反馈更加符合现实规律。

Seedance 1.0 lite模型可以广泛应用于电商广告、娱乐特效、影视创作、动态壁纸等多种场景。例如在电商领域,该模型能够帮助商家迅速生成高质量的营销视频素材,精准匹配产品展示和活动推广等场景,降低制作成本与周期。

二、豆包1.5·视觉深度思考模型:在60项评测中获38项第一

新推出的豆包1.5·视觉深度思考模型(
Doubao-1.5-thinking-vision-pro),激活参数仅为20B,但拥有强大的多模态理解和推理能力,在60个公开评测基准中取得38个SOTA表现,在视频理解、视觉推理、GUI Agent能力等领域均名列前茅。该模型现已在火山方舟上线。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

在视频分析领域,豆包1.5·视觉深度思考模型具备动态帧率采样功能,其视频时序定位能力得到了显著提升。结合向量搜索技术,该模型能够准确地识别视频中与文本描述相匹配的片段。

此外,该模型还增加了视频深度思考的能力,经过数万亿多模态标记数据的学习,掌握了广泛的视觉知识,并通过强化学习显著提高了视觉推理能力。举个例子,在复杂的图形推理问题中,模型能够提出假设并进行验证,若发现与假设不符,模型会进行反思并提出新的猜测,直到找到正确的答案。

豆包1.5·视觉深度思考模型还新增了GUI Agent功能。凭借其卓越的GUI定位能力,该模型可以在不同的环境下(如PC和手机)完成复杂的交互任务,例如对新开发的应用功能进行自动化测试。这一功能已在字节跳动的多款应用产品开发测试中得到了应用。

去年,火山引擎推出了豆包·音乐模型。基于此模型,用户只需提供一张图片或一句话,便可创作出多种风格的高品质音乐。在此次大会上,该模型进行了升级,不仅支持英文歌曲的创作,还能通过分析视频,自动匹配纯音乐BGM。

豆包·音乐模型已全面上线,个人和企业用户可以在海绵音乐及火山引擎官网进行体验。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

三、火山方舟:无需登录,低价推理,3分钟完成DeepSeek全功能部署

火山引擎的火山方舟是一站式大模型服务平台,提供语言、视觉、语音等模型的精细调优、推理及评测等多项功能与服务。通过丰富的插件生态系统和安全可信的解决方案,使企业与开发者的人工智能应用更容易落地。

开发者可以在无需登录的前提下,迅速体验模型的能力。对于长期使用的实名用户,火山方舟简化了模型接入流程,无需多次页面切换,2分钟即可完成模型的接入。在安心推理体验模式下,火山方舟不会主动消耗付费资源,并支持按模型分配tokens。

火山方舟还推出了两种离线批量推理方案。第一种是从存储中批量读取数据进行离线推理;第二种则是直接调用类似在线聊天的模型接口,对批量请求的动态负载进行精准控制,仅需几分钟即可完成开发适配。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

火山方舟为每位用户提供每日不少于100亿个token的批量推理额度,并以更低的价格进行服务。与在线推理相比,批量推理的费用降低了50%;如果使用前缀缓存,命中部分的价格再降低40%;而存储费用则为0元。

此外,火山方舟还提供超低延迟的小时级推理保障包。用户可以根据实际的业务流量曲线精细规划所需资源,避免在业务低谷期支付费用,从而节省成本。例如,Deepseek-R1的推理保障包能够稳定提供每token 20ms的延迟,而豆包1.5 Pro的推理保障包则能将推理延迟降低至15ms。

卓越的性能源自于充足的计算能力、深度的技术优化和高效的系统调度能力。火山方舟利用丰富的资源和先进的系统工程能力,确保提供高并发计算保障及卓越的服务体验。在多项评测中,火山方舟的Deepseek-R1服务始终展现出最低的延迟表现。

这一切得益于火山方舟多年来在算子层、框架层和调度层进行的深入优化。通过Prefill Decode分离式部署(即PD分离)、存算分离、内核优化以及秒速扩容等技术,实现异构硬件的协同优化与通信开销的极限性能,确保了方舟推理的快速与稳定。

对于有模型定制、部署及推理需求的企业客户,火山引擎的机器学习平台提供了与方舟相同的大模型推理引擎,具备行业领先的生产级可用的PD分离和分布式KV Cache能力。

火山方舟机器学习平台的创新与高效部署

火山方舟的机器学习平台成功简化了以往复杂的部署过程。通过预先配置的模型和镜像,以及PD分离部署的方式,用户只需1到3分钟即可轻松启动预置模型服务,快速完成DeepSeek推理集群的构建。

借助高效的文本推理框架xLLM及其在分布式系统中的优化,该平台将TPOT(吐字间隔)优化至仅为20毫秒。在使用两台8卡H20的环境下,xLLM在DeepSeek-R1 671B模型上的推理性能相比开源的SGLang方案,实现了4.5倍的吞吐量提升,同时每个token的延迟也下降到原来的三分之一。

基于自主研发的DiT推理框架veFuser,该平台能够在短短15秒内生成一个5秒时长的480P视频,推理效率较行业平均水平提高了4.5倍。

此外,火山方舟还提供了一个全面的安全可信方案,涵盖链路全加密、数据高保密、环境强隔离及操作可审计等四个安全模块,以确保会话的隐私和安全。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

火山方舟的应用实验室为客户和开发者提供了全面的场景化解决方案以及完整的源代码。针对应用插件、多模态及终端等场景,实验室提供了超过20个开源应用。同时,对于具备专业开发能力的企业开发者,实验室则提供了大模型应用开发所需的工具和流程,支持快速开发和定制化匹配业务需求的大模型相关应用,且兼容超过60个大模型产品,使用户能够轻松将方舟的大模型集成至主流软件中。

在火山方舟应用实验室的广场上,还有许多有趣的应用。例如,智能导购功能可以帮助网店运营,豆包模型与DeepSeek的长期记忆方案能够实现更好的数据整合,还有结合多模态和硬件能力的实时对话AI硬件,以及提供标准化解题流程的教师分身等。

Data Agent助力企业发掘数据资产,新版Trae接入豆包深度思考模型

Data Agent是火山引擎推出的一款企业数据全场景智能体,宛如一个企业级的AI数字专家。它具备主动思考、洞察、分析和执行的能力,能够深度挖掘企业的数据资产价值,涵盖数据分析和智能营销等多个关键领域。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

在数据分析方面,Data Agent能够有效整合企业内部的结构化和非结构化数据,并结合联网知识,准确理解业务需求,快速生成专业的深度研究报告。

通过自动化制定分析方案、追踪指标波动、利用自助分析工具以及搭建预警系统,Data Agent实现了数据处理全流程的智能化,使得复杂报表生成的时间从两天缩短至仅30分钟,显著提升了数据获取与决策的效率。

在智能营销领域,Data Agent能够实现从策略制定到执行优化的全链路闭环管理,快速完成目标人群的圈选与策略拆解,并基于个性化引擎进行精准的营销。

此外,其智能会话辅助和自动复盘优化的功能,不断提升转化率与客户满意度,动态调整营销策略,以适应市场变化。

打造高智能体的动态管理与应用

构建高智商的智能体不仅仅是一次性完成的静态项目,它是一个涉及数据、模型、工程和业务的动态迭代过程。因此,智能体的全生命周期管理显得尤为重要。HiAgent推出的Agent Devops体系,实现了从开发、运营优化到用户使用的完整链路打通。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

通过一个统一的AI交互平台,企业的员工能够更加高效地利用多种智能体。例如,企业管理员可登录到HiAgent,选择发布所需的智能体。发布后,员工可以根据自身的需求和意图,激活并使用不同的助手,如任务助手、差旅助手、报销助手和会议助手等。随着员工对智能体的使用频率不断提升,企业将积累更多有关数据和用户偏好的信息,从而使AI愈加了解企业,逐渐变得更加智能。

最新版本的Agent Devops现已全面适配MCP协议,具备更高的开放性,并且集成了火山引擎安全防火墙,以增强安全防护能力。此外,火山引擎还结合自身、客户与合作伙伴的知识和实践,推出了HiAgent应用样板间,帮助客户迅速构建与其业务特性相符的智能体。

为了便于开发者利用AI提升开发效率,国内首款AI原生IDE产品Trae也进行了多个重要功能的升级。例如,统一的AI对话面板(所有交互只需一个对话框)、支持自定义@Agent(组建专属AI团队)、新增联网搜索#Web和文档#Doc的上下文理解类型(AI执行需求更为准确高效),以及通过MCP让AI主动调用外部工具等。

目前,Trae已经配置了豆包1.5·深度思考模型(Doubao-1.5-thinking-pro),通过模型的主动深度思考和极低的20毫秒延迟,提升了代码生成的质量和效率。

Trae团队预测未来将出现两个主要趋势:首先,随着模型能力提升,AI编程将从生成复杂度较低的代码片段逐渐过渡到复杂度更高的软件和项目生成;其次,在交互逻辑方面,AI编程将从原有的在IDE等工具中嵌入AI,逐步转向AI利用各种工具满足软件开发的不同需求。

未来,Trae将逐步开放智能体的底层能力,支持开发者进行更深入的自定义专属智能体建设,并提供更优的人与AI协作机制,以激发人的创造力,同时充分发挥AI的生产力。

豆包大模型产业加速落地,助力游戏与医药领域发展

豆包大模型已经在汽车、智能终端、互联网、金融、教育科研、零售消费等多个行业实现广泛应用,覆盖了4亿终端设备、80%的主流车企、70%的系统重要性银行、数十家证券公司以及近70%的C9顶级高校和100多家科研机构。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

在游戏领域,巨人网络通过大模型的能力在重新塑造游戏体验与玩法创新。借助火山方舟接入豆包大模型及DeepSeek,巨人网络于今年3月在其游戏《太空杀》中推出了AI原生游戏玩法“内鬼挑战”模式。通过火山方舟DeepSeek-R1及豆包大模型的深度思考能力,创建了AI玩家与真实玩家之间的实时策略对抗,重新定义了社交推理游戏的智能边界。

六、全链路、全场景AI云原生推理套件,助力企业迅速转型与升级

伴随着DeepSeek的热度不断攀升,火山引擎的MaaS流量也随之迎来了一波新的增长高潮。目前,火山引擎MaaS服务为DeepSeek和豆包大模型提供支持,日均可达千卡级别的GPU弹性能力,初始TPM(每分钟token数)高达500万,RPM(每分钟请求数)超过3万,日常Tokens的使用频率更是达到了12.7万亿。

火山引擎的AI云原生推理套件为这些功能提供了坚实的支持。根据第三方评测排行榜,火山引擎的DeepSeek服务在初始token、推理速度和生成效率等方面均显示出卓越的表现。在相同的硬件资源下,使用DeepSeek-R1满血版的情况下,TPS吞吐量可提升五倍,同时GPU使用成本降低达80%。

针对不同的模型需求,火山引擎提供了多样化的接入和使用方案,包括方舟MaaS平台、机器学习平台以及AI云原生推理套件等。

特别是面向大模型推理的AI云原生推理套件ServingKit,旨在帮助企业实现从模型的部署、推理到运维的全链路效率提升。在部署阶段,借助加速服务有效缩短镜像下载与加载时间,使得首次部署和扩展能够迅速启动,推动业务的快速发展。Onion镜像权重加速引擎可在109秒内完成DeepSeek-R1满血版模型的下载,40秒内进行缓存预热,以及在13秒内加载权重。

在推理的执行阶段,借助GPU算子加速器、APIG AI网关、VKE编排调度以及KVCache缓存服务等多种升级手段,推理性能得到了显著的优化。其中,经过算子优化后,R1满血版的每秒事务处理量(TPS)提升了2.4倍;智能路由技术将时间到首次字节(TTFT)缩短了60%;在长文本推理场景下,KVCache的命中率相比于GPU Local提升了十倍之多。

在运维阶段,观测平台APM和VMP进行了全面升级,支持对推理业务的无侵入式透明埋点,从资源层到推理业务层实现了全链路、全场景的观测指标覆盖。

火山引擎重磅发布:豆包视频生成模型与视觉深度思考模型全面升级,Trae多项核心功能焕新!

火山引擎携手英特尔,通过“云实例与镜像”的结合,提供一个低门槛且高效率的资源,以便于大模型的开发。同时,火山引擎将不断提升大模型的部署效率,降低所需的算力成本。

总结:从模型矩阵到智能体工具,助力AI应用的普及与落地

根据火山引擎副总裁张鑫的观点,企业在实施AI技术的过程中,必须认真走好业务价值、模型基础设施和智能体应用三大核心阶段。业务价值的实现是一个渐进的过程,首先需要达成战略共识(-1→0),接着选择技术成熟度和数据准备程度高、业务价值明显的场景进行验证(0→1)。在这一过程中,企业应逐步构建自己的AI能力中心,并积累企业的知识库,以便为后续的扩展和价值重构(1→N、N→∞)奠定坚实的基础。

在整个过程中,企业需要构建的核心竞争力,源于对AI应用的极致产品体验设计,以及对特定领域知识库的沉淀,甚至专业模型的开发。同时,企业还需建立面向AI的组织和文化。

技术落地的过程远比简单引入一个大模型要复杂,实际上涉及多个维度,包括模型选择、效果评估、数据知识工程、算力准备、开发平台搭建、模型接入、效果调优和安全性能测试等多个环节。

火山引擎计划通过更全面的模型矩阵和更丰富的智能体工具,帮助企业打通从业务到智能体的应用链路,进一步促进AI的普及。希望与更多企业携手,将AI科技的落地过程从传统的手工编写“Hello World”代码,转变为更加轻松的与Agent互动,随意说声“Hi”。

来源:今日头条
原文标题:火山引擎密集上新:豆包全新视频生成模型、视觉深度思考模型,Trae多个重点功能升级 - 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
广告也精彩

No comments

No comments...