智东西
作者 | ZeR0
编辑 | 漠影
根据智东西在5月14日的报道,火山引擎于5月13日举行的AI创新巡展·上海站活动中,展示了大模型的全景图,并推出了豆包·视频生成模型Seedance 1.0 lite以及豆包1.5·视觉深度思考模型,同时还对豆包·音乐模型进行了升级。此外,Data Agent也首次亮相,国内首款AI原生IDE产品Trae已接入豆包深度思考模型,并增强了多个关键功能。
目前,火山方舟已经涵盖了语言、深度思考、视觉理解、语音和GUI Agent等多个领域的模型。
在会议上,火山引擎副总裁张鑫指出,AI时代的新基础设施包括模型、算力、数据和安全四个要素,这些要素在推动行业发展方面至关重要:
在模型方面,豆包大模型已成功支持超过50个内部真实场景和30多个行业的企业合作,截至4月,日均tokens调用量已突破12.7万亿。
算力方面,火山引擎的AI云原生平台提供了强大的系统承载能力,确保充足的算力、优化的推理层和高效的系统调度。
在数据方面,数据飞轮2.0和Data Agent的结合,使得用户能够基于动态的多模态数据湖智能重塑数据关系。
安全方面,火山引擎的大模型安全解决方案提供了PCC私密云计算平台,有效防范端云协同计算过程中可能出现的数据泄露问题,并通过大模型防火墙消除各类攻击风险。
一、视频生成模型:快速生成、高质量、低成本
新推出的豆包视频生成模型Seedance 1.0 lite,支持文本与图像生成视频,生成时长可选择5秒和10秒,分辨率提供480P和720P。
企业用户能够通过火山方舟平台接入该模型的API,个人用户则可以在豆包App和即梦体验中使用。
作为豆包视频生成系列中的小参数版本,Seedance 1.0 lite模型实现了两项重要突破:其视频生成质量达到了影视级别,同时大幅提升了生成速度,兼具了效果、速度和性价比。
(1)更为精准的指令执行:依靠强大的语义理解,用户能够精细地控制角色的外貌特征、服装风格、表情和动作,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换方面展现出明显优势。
(2)更丰富的影视级镜头运用:支持如360度环绕、航拍、变焦、平移、跟随和手持等多种镜头表现方式,画质细腻且具备影视级的美感。
(3)更合理的运动交互:通过分析动作的时间序列和空间关系,提升角色与物体之间自然流畅的互动,运动轨迹和受力反馈更符合现实规律。
Seedance 1.0 lite模型可广泛应用于电商广告、娱乐特效、影视创作以及动态壁纸等多个场景。例如,在电商领域,商家能够借助该模型快速生成高质量的营销视频素材,以精准匹配产品展示和活动推广等需求,从而降低制作成本与周期。
二、豆包1.5·视觉深度思考模型:在60项评测中夺得38项第一
新发布的豆包1.5·视觉深度思考模型(
Doubao-1.5-thinking-vision-pro),激活参数仅为20B,但具备卓越的多模态理解与推理能力。在60个公开评测基准中,该模型取得了38个SOTA表现,尤其在视频理解、视觉推理和GUI Agent能力等方面均处于领先地位。该模型现已在火山方舟平台上线。
火山方舟:低门槛高效推理,轻松实现AI应用
在视频理解领域,豆包1.5·视觉深度思考模型的动态帧率采样能力得到了显著提升,视频时序定位功能也变得更加精准。通过结合向量搜索技术,该模型能够有效找到与文本描述相符的视频片段。
此外,模型还加入了视频深度思考的能力,经过数万亿多模态标记数据的学习,广泛掌握了视觉知识。结合强化学习的应用,使得视觉推理能力大幅提升。比如在复杂的图形推理中,模型能够提出假设并进行验证。当发现与假设不符时,还能不断反思并提出新猜测,直至找到正确答案。
豆包1.5·视觉深度思考模型还引入了GUI Agent能力,凭借出色的GUI定位性能,能够在PC、手机等不同设备上完成复杂的交互任务。这一功能已经在字节跳动的多款应用产品开发测试中得到了应用。
去年,火山引擎推出了豆包·音乐模型。利用这一模型,用户仅需提供一张图片或一句话,就能创作出十多种风格各异的高品质音乐。在此次大20250;上,豆包·音乐模型进行了升级,不仅支持英文歌曲的创作,还能够通过视频理解自动适配背景音乐。
豆包·音乐模型已全面上线,个人和企业用户可以在海绵音乐及火山引擎官网进行体验。
火山方舟:免登录低价推理,3分钟完成DeepSeek全面部署
火山引擎推出的火山方舟,是一个一站式的大模型服务平台,涵盖语言、视觉与语音等模型的微调、推理与评测等多种功能。通过丰富的插件生态和安全可靠的解决方案,助力企业及开发人员更便捷地实现AI应用落地。
开发者可以在无需登录的情况下,快速体验模型的各项能力。对于需要长期使用的实名用户,火山方舟简化了模型接入流程,无需进行多页面的跳转,2分钟内即可完成模型接入。同时,安心推理体验模式下,火山方舟不会主动消耗付费资源,并支持按模型分配tokens。
火山方舟还推出了两种离线批量推理方案。第一种方案可从存储中批量读取数据进行离线推理;第二种方案则是直接通过类似在线聊天的模型接口,对批量请求的动态负载进行精准控制,几分钟即可完成开发适配。
火山方舟为每位用户提供每日不低于100亿个token的批量推理配额,且价格更加优惠。与在线推理相比,批量推理的费用降低了50%;若使用前缀缓存,命中部分的费用再减少40%;而存储费用则为0元。
此外,火山方舟还推出了超低延迟的小时级推理保障包。用户可以依据实际业务流量曲线来细化资源规划,无需在业务低谷期支付费用,从而节省成本。例如,Deepseek-R1的推理保障包可以稳定地提供20ms的每token延迟,而豆包1.5 Pro的保障包可将推理延迟降低至15ms。
卓越的性能源自于充足的算力、深度的技术优化以及出色的系统调度能力。火山方舟凭借丰富的资源和先进的系统工程能力,提供高并发算力保障和极致的服务体验。在多次测评中,火山方舟的Deepseek-R1服务始终保持着最低的延迟表现。
这一切得益于火山方舟在算子层、框架层和调度层的深度优化工作,通过Prefill Decode分离式部署、存算分离、内核优化和秒速扩容等技术,确保在异构硬件协同优化和通信开销中实现卓越性能,保证推理过程的快速与稳定。
对于有模型定制、部署及推理需求的企业客户,可以使用火山引擎的机器学习平台。该平台与火山方舟共享相同的大模型推理引擎,具备业内领先的生产级可用的PD分离和分布式KV Cache能力。
火山方舟机器学习平台:简化部署与提升效率
火山方舟的机器学习平台打破了传统复杂的部署流程。借助于预置模型和镜像,以及PD分离的部署方式,用户仅需1至3分钟即可轻松启动预设模型服务,顺利完成DeepSeek推理集群的搭建。
依托于高效的文本推理框架xLLM和优化的分布式系统,该平台将TPOT(吐字间隔)缩短至20毫秒。在使用两台8卡H20的条件下,xLLM在DeepSeek-R1 671B模型上的推理性能相比开源SGLang方案提升了4.5倍的吞吐量(tokens/s),每个token的延迟也减少至原来的三分之一。
通过自主研发的DiT推理框架veFuser,平台能够在15秒内生成一段5秒的480P视频,其推理效率比行业平均水平高出4.5倍。
火山方舟还提供了一整套安全可靠的解决方案,涵盖链路全加密、数据高保密、环境强隔离及操作可审计等四大安全模块,确保用户会话的隐私和安全。
火山方舟应用实验室为客户与开发者提供了一站式的场景化解决方案及完整的源代码。该实验室面向应用插件、多模态及终端等领域,提供超过20个开源应用;对于具备专业开发能力的企业开发者,提供了大模型应用开发所需的工具和流程,支持快速开发与业务场景匹配的大模型应用。此外,实验室支持超过60个大模型产品,用户可以轻松将方舟的大模型整合到主流软件中。
在火山方舟应用实验室的广场中,还有许多有趣的应用,比如智能导购、与DeepSeek协作的豆包模型长期记忆方案、整合多模态和硬件能力的实时对话AI硬件,以及提供标准化解题链路的教师分身等。
Data Agent:助力企业挖掘数据资产及新版Trae接入豆包深度思考模型
Data Agent是火山引擎推出的全场景企业数据智能体,宛如一位企业级的AI数字专家,具备主动思考、洞察、分析和执行的能力,能够深度挖掘企业的数据资产价值,涵盖数据分析和智能营销等多个核心领域。
在数据分析方面,Data Agent能够整合企业内部的结构化和非结构化数据,结合联网知识,深刻理解业务需求,并迅速生成专业的深度研究报告。
通过自动化制定分析方案、追踪指标波动、运用自助分析工具及建立预警系统,Data Agent实现了数据处理的全流程智能化,显著将复杂报表的生成时间从两天缩短到30分钟,大幅提升数据获取和决策效率。
在智能营销方面,Data Agent能够实现从策略制定到执行优化的全链路闭环管理,快速完成目标人群的圈选与策略的拆解,并基于个性化引擎实现精准的营销。
此外,其智能会话辅助与自动复盘优化功能,不断提升转化率与客户满意度,动态调整营销策略。
五、豆包大模型产业加速落地,助力游戏与医药行业创新发展
豆包大模型已在多个领域,如汽车、智能设备、互联网、金融、教育科研以及零售消费等行业广泛应用,覆盖了四亿个终端设备,八成的主流汽车制造商,70%的重要银行系统,以及数十家证券基金公司。此外,近七成的C9顶尖高校和一百多家研究机构也在使用这一技术。
在游戏领域,巨人网络正在利用大模型的强大功能来重新构造游戏体验并进行创新玩法的开发。今年3月,通过火山方舟接入豆包大模型及DeepSeek,巨人网络在其游戏《太空杀》中推出了AI原生玩法“内鬼挑战”。这种玩法通过引入火山方舟DeepSeek-R1和豆包大模型的深度思考能力,创造出AI玩家,能够与真实玩家进行实时策略对抗,重新定义了社交推理游戏的智能边界。
六、全方位AI云原生推理解决方案,助力企业快速实现AI转型与升级
随着DeepSeek的热度不断提升,火山引擎的MaaS服务也经历了新一波的增长。目前,火山引擎MaaS所支持的DeepSeek与豆包大模型,具备每天峰值千卡级别的GPU弹性能力,初始TPM(每分钟token数)达到500万,超越3万的RPM(每分钟请求数),日均Tokens的使用量高达12.7万亿。
火山引擎AI云原生推理套件为这些强大能力提供了强有力的支持。在第三方的评测排行榜中,火山引擎DeepSeek服务在首token、推理速度和生成速度等多个维度均表现出色。与同样的硬件资源相比,运行DeepSeek-R1满血版能够将TPS吞吐量提升5倍,同时GPU使用成本降低了80%。
对于不同种类的模型,火山引擎提供了多种接入和使用选项,包括方舟MaaS平台、机器学习平台以及AI云原生推理套件等。
面向大模型推理的AI云原生推理套件——ServingKit,旨在帮助企业实现从模型部署到推理及运维的全链路效率提升。在部署阶段,镜像下载和加载的加速服务能迅速拉起业务,促进业务发展。Onion镜像权重加速引擎使DeepSeek-R1满血版模型的下载时间缩短至109秒,缓存预热仅需40秒,而权重加载则只需13秒。
在推理阶段,通过GPU算子加速器、APIG AI网关、VKE编排调度及KVCache缓存服务等手段,进一步优化了推理性能。经过算子优化后,R1满血版的TPS提升达到2.4倍;智能路由技术使TTFT降低了60%;在长文本推理场景中,KVCache的命中率相比GPU Local提升了10倍,极大地增强了系统效率。
结尾总结:从模型体系到智能工具,助力AI应用的广泛落地
在运维的环节中,观测平台APM与VMP进行了全面的升级,支持推理业务的无侵入式透明埋点,确保从资源层到推理业务层的观测指标能够实现全链路、全场景的全面覆盖。
火山引擎与英特尔携手合作,通过“云实例+镜像”的方式,降低了大模型开发的门槛,显著提升了开发效率,并致力于进一步提高大模型的部署效率以及降低算力成本。
根据火山引擎副总裁张鑫的分享,企业在AI落地的过程中应当分阶段推进业务价值、模型基础设施与智能应用的建设。首先,企业需达成战略共识(-1→0),接着选择那些技术成熟、数据准备充分且业务价值显著的场景进行验证(0→1),在这一过程中,逐步构建自己的AI能力中心,积累企业的知识库,为后续的扩量复制(1→N)和价值重构(N→∞)奠定基础。
在这一系列的旅途中,企业所需构建的核心竞争力,源于将AI与卓越的产品体验设计相结合,积累独特的领域知识库,甚至是专业模型,形成以AI为导向的人才组织与文化。
技术落地的过程远不止是简单地引入一个大模型,而是涵盖多个不同的维度,包括模型选择、效果评估、数据知识工程、算力准备、开发平台构建、模型接入、效果优化以及性能安全测试等各个环节。
火山引擎计划通过更全面的模型体系和丰富的智能工具,帮助企业打通从业务到智能体的应用链路,进一步推动AI的普及,期待与更多企业携手,将AI科技的落地方式从传统的手工编写“Hello World”代码,转变为更加轻松的与Agent互动。
Please specify source if reproduced火山引擎重磅发布:全新豆包视频生成与视觉深度思考模型,Trae功能全面升级! | AI工具导航







