火山引擎重磅推出新功能：豆包视频生成与视觉深度思考模型全面升级！

AI快讯 6months ago AICAT

0 0 1

智东西

作者 | ZeR0

编辑 | 漠影

据智东西5月14日报道，火山引擎在5月13日于上海举办的AI创新巡展中，展示了其大模型的全景视图，推出了豆包·视频生成模型Seedance 1.0 lite以及豆包1.5·视觉深度思考模型，此外还对豆包·音乐模型进行了升级。同时，Data Agent首次亮相，国内首款AI原生IDE产品Trae接入了豆包深度思考模型，并增强了多个重要功能。

火山方舟现已涵盖语言、深度思考、视觉理解及语音等多种模型。

在会议上，火山引擎的副总裁张鑫指出，AI时代的新基础设施由模型、计算能力、数据与安全组成，同时火山引擎向外界提供了这四大要素：

关于模型，豆包大模型已为50多种内部真实应用场景和30多个行业外部企业的协作提供支持，截至4月，日均tokens调用量已超过12.7万亿。

在算力方面，火山引擎的AI云原生平台提供了强大的系统承载能力，包括丰富的算力、推理层优化及系统调度能力的结合。

数据方面，数据飞轮2.0和Data Agent使用户能够基于动态的多模态数据湖，智能地重构数据的关系。

在安全领域，大模型安全方案则提供了PCC私密云计算平台，有效解决了端云协同计算过程中的数据泄露问题，并通过大模型防火墙消除多种攻击风险。

一、视频生成模型：效果卓越、生成迅速、成本降低

新发布的豆包视频生成模型Seedance 1.0 lite，支持文本生成视频和图像生成视频，生成时长可选5秒或10秒，分辨率则提供480P和720P。

企业用户可以通过火山方舟平台访问该模型的API，个人用户则可在豆包App或即梦体验中使用。

作为豆包视频生成模型的轻量版，Seedance 1.0 lite在两个方面取得了显著突破：实现了影视级的视频生成质量，且生成速度显著提升，同时兼顾效果、速度与性价比。

（1）更精确的指令执行：通过强大的语义理解能力，该模型能够细致控制角色的外貌、气质、服装风格和表情动作，并在多主体动作分析、文本嵌入响应、程度副词及镜头切换响应等方面具备优势。

（2）更丰富的影视级运镜技巧：支持360度环绕、航拍、变焦、平移、跟随及手持等多种镜头表现形式，基础画质精细高清，兼具影视特效的美感。

（3）更合理的运动交互设计：通过分析动作的时序与空间关系，提升角色与物体之间自然流畅的交互，运动轨迹和受力反馈更符合现实规律。

Seedance 1.0 lite模型可广泛应用于电商广告、娱乐特效、影视制作和动态壁纸等场景。例如，在电商行业，该模型能帮助商家快速生成高质量的营销视频素材，精准适配产品展示与活动推广，显著降低制作成本与时间。

二、豆包1.5·视觉深度思考模型：在60项评测中夺得38项第一

新推出的豆包1.5·视觉深度思考模型（
Doubao-1.5-thinking-vision-pro），激活参数为20B，具备强大的多模态理解与推理能力，在60个公开评测基准中获得38个SOTA表现，在视频理解、视觉推理及GUI Agent能力等领域均处于领先地位。该模型已在火山方舟平台上线。

在视频解析领域，豆包1.5·视觉深度思考模型实现了动态帧率采样功能，显著提升了视频时序识别能力。结合向量搜索技术，该模型能够精准地找到与文本描述相对应的视频片段。

此外，新版本模型还具备视频深度思考能力，经过数万亿多模态标记数据的学习，掌握了丰富的视觉知识。通过强化学习，推理能力得到了显著提升。例如，在处理复杂图形推理问题时，模型不仅提出假设进行验证，还能在发现与假设不符时进行反思，提出新的猜测，直到找到正确答案。

豆包1.5·视觉深度思考模型还加入了GUI Agent功能，借助其卓越的GUI定位能力，能够在不同设备如PC和手机上完成复杂的交互任务。例如，它可以对新开发的App功能进行自动化测试。该功能已经在字节跳动的多款App产品开发测试中得到了应用。

去年，火山引擎推出了豆包·音乐模型。通过该模型，用户只需一张图片或一句话，便可创作出十多种不同风格的高品质音乐。在此次大会上，豆包·音乐模型实现了升级，不仅支持英文歌曲创作，还能够通过视频内容自动匹配适合的纯音乐背景。

现在，豆包·音乐模型已全面上线，个人用户和企业用户可以在海绵音乐及火山引擎官网体验其功能。

三、火山方舟：无需登录，低价推理，3分钟内完成DeepSeek全面部署

火山引擎的火山方舟是一站式大模型服务平台，提供了语言、视觉、语音等多种模型的精细调整、推理及评测功能。通过丰富的插件生态和安全可靠的方案，企业及开发者的AI应用变得更加容易落地。

开发者可以在无需登录的情况下快速体验模型的功能。对于需要长期使用的实名用户，火山方舟简化了模型接入流程，无需跳转多个页面，2分钟内即可完成模型的接入。在安心推理体验模式下，火山方舟不会主动消耗付费资源，并支持按模型分配tokens。

火山方舟推出了两种离线批量推理方案。一是从存储中批量读取数据，进行离线推理；二是直接使用类似在线聊天的模型接口，对批量请求的动态负载进行精确控制，几分钟内便可完成开发适配。

火山方舟为每位用户提供每日不少于100亿个token的批量推理配额，并以更低价格吸引用户。与在线推理相比，批量推理的费用降低了50%；如果使用前缀缓存，命中部分价格再降低40%；存储费用为零。

火山方舟还推出了超低延迟的小时级推理保障包。用户可以根据实际业务流量曲线精细规划所需资源，避免在业务低谷时期支付多余费用。例如，Deepseek-R1的推理保障包能稳定提供每token 20毫秒的延迟，而豆包1.5 Pro的推理保障包则可将延迟降低至15毫秒。

卓越的性能源于强大的算力、深度技术优化和系统调度能力的结合。火山方舟凭借充足的资源和先进的系统工程能力，确保高并发算力保障和优质的服务体验。在多方测评中，火山方舟的Deepseek-R1服务始终保持最低延迟表现。

这一切得益于火山方舟多年在算子层、框架层及调度层进行的深度优化工作：通过Prefill Decode分离式部署、存算分离、内核优化及秒速扩容等技术，实现了在异构硬件协同优化与通信开销中的极致表现，确保方舟推理既快速又稳定。

企业客户如需模型定制、部署及推理服务，可以利用火山引擎的机器学习平台。该平台与方舟共享同样的大模型推理引擎，具备业内领先的生产级可用的PD分离和分布式KV缓存能力。

火山方舟机器学习平台：重构部署效率与安全方案

火山方舟的机器学习平台打破了传统部署的繁琐流程，借助预设模型和镜像，结合PD分离的部署方式，用户只需1至3分钟便可一键启动预设模型服务，轻松完成DeepSeek推理集群的搭建。

该平台凭借其高效的文本推理架构xLLM和分布式系统的优化，将TPOT（吐字间隔）缩短至20毫秒。在使用两台8卡H20的情况下，xLLM在DeepSeek-R1 671B模型上的推理能力较开源SGLang方案提升了4.5倍的吞吐量（tokens/s），同时每个token的延迟也降至原来的三分之一。

采用自主研发的DiT推理框架veFuser，该平台能够在15秒内生成5秒480P的视频，相较于行业平均水平，其推理效率提升了4.5倍。

火山方舟还整合了全面的安全可信方案，通过链路全加密、数据高保密、环境强隔离和操作可审计等四个安全模块，确保会话的隐私性和安全性。

火山方舟应用实验室为客户和开发者提供了一整套场景化解决方案以及完整的源代码，涵盖了应用插件、多模态和终端等多种场景，提供超过20个开源应用。同时，面向具备专业开发能力的企业，提供大模型应用开发所需的工具和流程集，以支持快速开发和定制符合业务需求的大模型应用，支持超过60种大模型产品，用户可以轻松将方舟大模型整合到主流软件中。

此外，火山方舟应用实验室广场还展示了许多有趣的应用，例如智能导购系统，帮助网店运营；豆包模型与DeepSeek协作的长期记忆方案；整合多模态和硬件能力的实时对话AI硬件；以及提供标准化解题链路的教师分身等。

四、Data Agent助力企业挖掘数据价值，新版Trae接入豆包深度思考模型

Data Agent是火山引擎推出的企业数据全场景智能体，犹如一位企业级的AI数字专家，具备主动思考、分析和行动的能力，能够深入挖掘企业的数据资产价值，其功能涵盖了数据分析和智能营销等多个关键领域。

在数据分析方面，Data Agent能够结合企业内部的结构化和非结构化数据，利用联网知识精准理解业务需求，并迅速生成专业的深度研究报告。

通过自动化的分析方案制定、指标波动追溯、自助分析工具的使用以及预警系统的搭建，Data Agent实现了数据处理的全流程智能化，显著将复杂报表生成时间从2天缩短至仅30分钟，大幅提升了数据获取和决策的效率。

在智能营销领域，Data Agent实现了从策略制定到执行优化的全链路闭环管理，高效完成目标人群的圈选与策略的拆解，基于个性化引擎推动精准营销。

此外，其智能会话辅助及自动复盘优化功能，能够持续提升转化率与客户满意度，动态迭代营销策略。

五、豆包大模型产业迅速发展，助力游戏与医药行业创新提升

豆包大模型已经在多个行业中获得了广泛应用，包括汽车、智能设备、互联网、金融、教育科研、零售等，覆盖了超过四亿的终端设备，涉及到八成的主流汽车制造商、70%的系统重要性银行、数十家证券和基金公司，以及近七成的C9顶尖学府和一百多家科研机构。

在游戏领域，巨人网络正凭借大模型的强大功能来重新塑造游戏体验及玩法。通过火山方舟与豆包大模型及DeepSeek的结合，巨人网络在其游戏《太空杀》中推出了名为“内鬼挑战”的AI原生游戏模式。这一玩法通过利用火山方舟DeepSeek-R1及豆包大模型的深度思考能力，创造出与真实玩家进行实时策略对抗的AI玩家，重新定义了社交推理游戏的智能边界。

六、全面覆盖的AI云原生推理解决方案，助力企业快速实现AI转型与升级

随着DeepSeek日益受到关注，火山引擎的MaaS流量也迎来了新的增长周期。目前，火山引擎MaaS服务所支持的DeepSeek与豆包大模型，具备每日峰值千卡级GPU弹性能力、500万初始TPM（每分钟token数）以及超3万的RPM（每分钟请求数），日均Token的使用量已达到12.7万亿。

火山引擎的AI云原生推理套件为这些强大功能提供了有力支持。

在第三方评测中，火山引擎的DeepSeek服务在首token、推理速度以及生成速度等多个方面均展现出最佳表现。相较于开源的SGLang，在相同硬件条件下，DeepSeek-R1满血版的TPS吞吐量提升了5倍，同时GPU的使用成本降低了80%。

针对不同的模型，火山引擎提供了多样化的接入方式，包括方舟MaaS平台、机器学习平台及AI云原生推理套件。

针对大模型推理的AI云原生推理套件ServingKit，旨在帮助企业实现模型的部署、推理及运维的全面提效。

在部署环节，镜像下载与加载的加速服务使得首次部署及扩容过程中，能够迅速启动业务发展。Onion镜像权重加速引擎可在109秒内完成DeepSeek-R1满血版模型的下载，40秒内完成缓存预热，13秒内完成权重加载。

在推理环节，通过GPU算子加速器、APIG AI网关、VKE编排调度以及KVCache缓存服务等技术的提升，显著优化了推理的性能。经过算子优化，R1满血版的每秒事务处理能力（TPS）提升了2.4倍；智能路由技术的引入使得推理的整体延迟降低了60%；在处理长文本推理时，KVCache的命中率相比于GPU Local提升了十倍之多。

在运维方面，观测平台APM与VMP进行了全面的提升，支持对推理业务进行无侵入式透明埋点，确保从资源层到推理业务层的全链路、全场景观测指标均能得到覆盖。

火山引擎与英特尔联手合作，通过“云实例+镜像”的模式，提供了一个低门槛且高效的途径，助力大模型的开发，并将持续提升大模型的部署效率，同时降低计算资源的成本。

结论：推进AI应用的落地与普及，从模型矩阵到智能体工具

根据火山引擎副总裁张鑫的观点，企业在实现AI落地的过程中，应明确业务价值、模型基础设施和智能体应用这三大阶段。业务价值的实现可以分为多个阶段，首先需达成战略共识（-1→0），接着选择技术成熟度高、数据准备充分且具有明显业务价值的场景进行验证（0→1），在这一过程中逐步构建自己的AI能力中心，并积累企业的知识库，为之后的规模复制（1→N）和价值重构（N→∞）奠定坚实基础。

在整个过程中，企业所需构建的核心竞争力来自于对AI的深度理解与应用，旨在提供卓越的产品体验，沉淀独特的领域知识库，甚至开发专业模型，最终形成以AI为核心的人才组织和文化。

技术落地的过程远不止于引入大型模型，更是一个涉及多个维度的复杂旅程，包括模型选择、效果评估、数据知识工程、算力准备、开发平台搭建、模型接入、效果优化及性能安全测试等环节。

火山引擎希望通过更全面的模型矩阵以及丰富的智能体工具，帮助企业打通从业务到智能体的应用链路，进一步推动AI的普及。我们的目标是将AI科技的落地方式，从以往的手动编写“Hello World”代码，转变为更加轻松自然的对Agent说“Hi”。

来源：今日头条

原文标题：火山引擎密集上新：豆包全新视频生成模型、视觉深度思考模型，Trae多个重点功能升级 - 今日头条

原文链接：https://www.toutiao.com/article/7504245757491397131/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

Copyrights:AICAT Posted on 2026-01-21 10:16:05。
Please specify source if reproduced火山引擎重磅推出新功能：豆包视频生成与视觉深度思考模型全面升级！ | AI工具导航

No comments

No comments...