智东西
作者 | ZeR0
编辑 | 漠影
根据智东西5月14日的报道,火山引擎在5月13日于上海举办的AI创新巡展活动中,展示了其大模型的全景图景,并推出了豆包·视频生成模型Seedance 1.0 lite和豆包1.5·视觉深度思考模型,同时还对豆包·音乐模型进行了升级。此外,Data Agent也首次登场,国内首款AI原生IDE产品Trae成功接入豆包深度思考模型,并增强了多项重要功能。
当前,火山方舟平台涵盖了多种模型,包括语言处理、深度思维、视觉理解、语音与图形用户界面等领域。
在活动中,火山引擎副总裁张鑫强调,模型、算力、数据和安全构成了人工智能时代的新基础设施,并且火山引擎向外界提供这四个基本要素:
在模型方面,豆包大模型为50多个内部实际场景和30多个外部行业企业的共同创新提供支持,截至四月,日均tokens调用量已超过12.7万亿。
算力方面,火山引擎的AI云原生系统具备强大的承载能力,包括充足的计算能力、优化的推理层和高效的系统调度能力。
在数据方面,数据飞轮2.0和Data Agent使得用户能够基于动态的多模态数据湖进行智能化的数据关系重塑。
关于安全,火山引擎的大模型安全方案提供了PCC私密云计算平台,能够有效解决端云协同计算过程中的数据泄露风险,并通过大模型防火墙消除多种攻击隐患。
一、视频生成模型:高效、迅速且经济
近日推出的豆包视频生成模型Seedance 1.0 lite,支持文本生成视频和图像生成视频,视频时长可选择5秒或10秒,分辨率则有480P和720P可供选择。
企业用户可通过火山方舟平台访问该模型的API,个人用户则可在豆包App及即梦体验中使用。
作为豆包视频生成模型系列中的小型高效版本,Seedance 1.0 lite在以下两方面取得了显著进展:在视频生成质量上达到了影视级别,同时视频生成速度也有了显著提升,兼顾了效果、速度和性价比。
(1)指令遵循更为精准:凭借卓越的语义理解能力,能够精细化控制角色的外观、气质、服装风格以及表情动作,并在多角色动作解析、嵌入式文本响应以及程度副词和镜头切换反应方面展现出优势。
(2)影视级运镜更为丰富:支持多种镜头语言,如360度环绕、航拍、变焦、平移、跟随和手持等,具备细腻的高清基础画质及影视级的美感。
(3)运动交互更加合理:通过分析动作的时序与空间关系,提升角色与物体之间的自然流畅交互,运动轨迹和受力反馈更符合现实规律。
Seedance 1.0 lite模型适用于电商广告、娱乐特效、影视创作和动态壁纸等多个场景。例如,在电商领域,该模型能够帮助商家快速生成高质量的营销视频素材,精准匹配产品展示和活动推广需求,从而降低制作成本和周期。
二、豆包1.5·视觉深度思考模型:在60项评测中斩获38项第一
新发布的豆包1.5·视觉深度思考模型(
Doubao-1.5-thinking-vision-pro),拥有20B的激活参数,却具备强大的多模态理解与推理能力。在60个公开评测基准中,该模型在38项中取得了SOTA的优异表现,在视频理解、视觉推理和GUI Agent能力等方面均处于领先地位。目前,该模型已在火山方舟平台上线。
一、豆包1.5·视觉深度思考模型的创新之道
在视频解析领域,豆包1.5·视觉深度思考模型具备动态帧率采样能力,显著提升了视频时序定位的精准度。通过结合向量搜索技术,模型能够准确识别视频中与文本描述相匹配的片段。
此外,该模型还引入了视频深度思考的新增功能,经过数万亿的多模态标记数据学习,广泛吸收视觉知识,并通过强化学习显著增强了视觉推理能力。举个例子,在面对复杂的图形推理问题时,模型能够提出假设并进行推理验证。若发现假设与实际不符,它20250;不断自我反思,提出新的猜测,直至找到正确的解决方案。
豆包1.5·视觉深度思考模型还增加了GUI Agent功能,凭借其卓越的GUI定位能力,能够在不同平台如PC和手机中处理复杂的交互任务。例如,可以对新开发的App功能进行自动化检测。这一功能已经在字节跳动的多款App产品开发测试中得到应用。
去年,火山引擎发布了豆包·音乐模型,用户仅需提供一张图或一句话,即可创作出十多种不同风格的高质量音乐。在此次大会上,豆包·音乐模型进行了升级,除了支持英文歌曲的创作外,还能通过对视频的理解自动适配背景音乐。
目前,豆包·音乐模型已全面上线,个人与企业用户可在海绵音乐及火山引擎官网进行体验。
二、火山方舟:零登录,低价推理,3分钟完成DeepSeek部署
火山引擎的火山方舟是一个集成的模型服务平台,提供语言、视觉及语音等模型的精细调优、推理和评测服务。通过丰富的插件生态系统和可靠的安全方案,帮助企业和开发者的AI应用更加顺利落地。
开发者无需登录就能快速体验模型的能力。对于长期使用的实名用户,火山方舟简化了模型接入流程,用户可以在两分钟内完成模型接入,避免了繁琐的页面跳转。在安心推理模式下,火山方舟不会主动消耗付费资源,并允许按模型分配tokens。
此外,火山方舟推出了两种离线批量推理方案。一种是从存储中批量读取数据进行离线推理;另一种是利用类似在线聊天的模型接口,精准控制批量请求的动态负载,几分钟内就可以完成开发适配。
针对每位用户,火山方舟提供的每日批量推理额度不少于100亿个token,且价格相较于在线推理降低了50%。若使用前缀缓存,命中部分价格再降40%;而存储费用则为0元。
火山方舟还提供超低延迟的小时级推理保障包,用户可以根据实际业务流量灵活规划所需资源,无需在业务低谷期支付费用,从而节省成本。比如,Deepseek-R1的推理保障包能够稳定提供每token仅20毫秒的延迟,而豆包1.5 Pro的推理保障包则能将延迟降至15毫秒。
卓越的性能源于充足的算力、深度的技术优化以及高效的系统调度能力。火山方舟凭借丰富的资源和先进的系统工程能力,实现了高并发的算力保障和出色的服务体验。在多方评测中,火山方舟的Deepseek-R1服务始终保持最低的延迟表现。
这种成绩得益于火山方舟在算子层、框架层及调度层的深入优化工作。通过Prefill Decode分离式部署、存算分离、内核优化与秒速扩容等技术,火山方舟在异构硬件协调优化与通信开销方面实现了卓越的性能,确保推理过程既快速又稳定。
对于有模型定制、部署和推理需求的企业客户,火山引擎的机器学习平台提供了相应的服务。该平台与火山方舟共享同一大模型推理引擎,具备业内领先的生产级PD分离和分布式KV Cache能力。
火山方舟机器学习平台的技术革新与应用
火山方舟的机器学习平台已经成功简化了传统的部署流程。借助于预先配置的模型和镜像,以及PD分离的部署方式,用户只需1到3分钟便可轻松启动预置模型服务,从而完成DeepSeek推理集群的搭建。
凭借高效的文本推理框架xLLM和分布式系统的优化,该平台将TPOT(吐字间隔)优化至仅需20毫秒。在使用两台8卡H20的环境下,xLLM在DeepSeek-R1 671B模型上的推理性能较开源的SGLang方案提升了4.5倍的吞吐量(tokens/s),同时每个token的延迟也减少到原来的三分之一。
通过自主研发的DiT推理框架veFuser,该平台能够在15秒内生成一个5秒的480P视频,其推理效率较行业平均水平提升了4.5倍。
火山方舟还提供了全面的安全保障方案,涵盖全链路加密、高度保密的数据处理、强隔离的运行环境及可审计的操作流程,确保用户的会话数据不留痕迹。
火山方舟的应用实验室为客户与开发者提供全方位的场景化解决方案以及完整的源代码。面向各种应用插件、多模态及终端场景,实验室提供超过20个开源应用。同时,为具备专业开发能力的企业开发者,提供大模型应用开发所需的工具及流程,支持快速开发与业务场景的定制匹配。该平台还支持多达60个大模型产品,用户可以轻松将方舟的大模型集成到主流软件中。
在火山方舟的应用实验室广场,用户可以找到许多令人兴奋的应用,例如智能导购帮助网店运营、豆包模型与DeepSeek的协作长期记忆方案、整合多模态和硬件能力的实时对话AI硬件,以及提供标准化解题链路的教师分身等。
Data Agent助力企业挖掘数据价值,新版Trae接入豆包深度思考模型
Data Agent是火山引擎推出的一款企业级数据全场景智能体,可以被视为企业的AI数字专家。它具备主动思考、洞察、分析和行动的能力,能够深入挖掘企业的数据资产价值,涵盖数据分析和智能营销等重要领域。
在数据分析方面,Data Agent可以将企业内部的结构化和非结构化数据进行融合,并结合网络上的知识,准确理解业务需求,从而快速生成专业的深度研究报告。
通过自动化的分析方案制定、指标波动追溯、自助分析工具的应用及预警系统的搭建,Data Agent实现了数据处理的全流程智能化,大幅缩短了复杂报表生成的时间,从原来的2天减少到仅需30分钟,极大地提升了数据获取和决策的效率。
在智能营销方面,Data Agent能够实现从策略制定到执行优化的全链路闭环管理,快速完成目标人群的圈选和策略的拆解,并基于个性化引擎进行精准的营销。
此外,它的智能会话辅助和自动复盘优化功能能够持续提升客户的转化率与满意度,同时能够动态调整营销策略。
智能体的动态迭代与全生命周期管理
构建一个高智商的智能体并非一次性的静态成果,而是一个涉及数据、模型、工程及业务的动态耦合与持续迭代的过程。因此,智能体必须进行全面的生命周期管理。HiAgent推出的Agent Devops体系,成功实现了从开发、运营优化到用户使用的完整流程打通。
通过集成统一的AI交互平台,企业的员工能够更有效地利用多种智能体。例如,企业管理员可以登录HiAgent,选择并发布所需的智能体。发布后,员工可以根据自己的需求唤醒不同的助手,如任务助手、差旅助手、报销助手、会议助手等。随着员工对智能体使用频率的增加,企业可以积累更多的数据和用户行为偏好,使得AI对企业的理解日益深入,变得越来越聪明。
Agent Devops的最新版本近期全面兼容MCP协议,提升了开放性,并集成了火山引擎的安全防火墙,增强了安全性。此外,火山引擎还结合自身及客户、合作伙伴的经验与知识,开发了一套HiAgent应用样板,以帮助客户快速建立与业务需求相符的智能体。
为便利开发者使用AI提升开发效率,国内首款AI原生IDE产品Trae也进行了多项功能升级,特别是推出了统一的AI对话面板(所有交互仅需一个对话框),支持自定义@Agent(构建专属AI团队),新增联网搜索 #Web 和文档 #Doc 的上下文理解功能(AI执行需求更加精准高效),并通过MCP实现AI主动调用外部工具等。
目前,Trae已配置豆包1.5·深度思考模型(Doubao-1.5-thinking-pro),依托该模型的深度思考能力和极低的20毫秒延迟,提升了代码生成的质量与效率。
Trae团队预计,未来将出现两个主要发展趋势:一方面,随着模型能力的提升,AI编程将从生成简单的代码片段逐步向生成复杂的软件及项目演进;另一方面,在交互逻辑上,AI编程将从过去在IDE等工具中嵌入AI的方式,逐渐转向AI使用多种工具来满足软件开发的各种需求。
未来,Trae将逐步开放智能体的一些基础能力,支持开发者进行更深入的自定义,创造专属智能体,同时提供更优的人与AI协作机制,以激发人的创造力,充分发挥AI的生产力。
豆包大模型的产业应用加速,推动游戏与医药行业的创新
豆包大模型已经在汽车、智能终端、互联网、金融、教育科研、零售消费等多个行业得到广泛应用,覆盖了4亿终端设备,服务于80%的主流汽车制造商、70%的系统重要性银行,以及数十家证券基金公司、近70%的C9顶尖高校和100多家科研机构。
在游戏行业,巨人网络正借助大模型的强大能力来重新塑造游戏体验和玩法。通过火山方舟接入豆包大模型及DeepSeek,巨人网络于今年3月在其游戏《太空杀》中推出了AI原生玩法“内鬼挑战”,通过火山方舟DeepSeek-R1与豆包大模型的深度思考能力,创造了AI玩家与真实玩家的实时策略对抗,重新定义了社交推理游戏的智能边界。
六、全链路、全场景AI云原生推理套件,助力企业推进AI转型与升级
随着DeepSeek的热度不断上升,火山引擎的MaaS流量也随之迎来了新一波的增长。目前,火山引擎MaaS服务所支持的DeepSeek和豆包大模型,能够实现每天高达千卡级别的GPU弹性能力,初始TPM(每分钟令牌数)达500万,RPM(每分钟请求数)超过3万,日均Tokens的使用量达到了惊人的12.7万亿。
火山引擎推出的AI云原生推理套件产品为这些强大能力提供了支撑。
根据第三方测评排行榜,火山引擎的DeepSeek服务在首个令牌处理、推理速度和生成速度等方面均表现优异。在相同的硬件条件下,DeepSeek-R1满血版相比开源的SGLang,其TPS(每秒事务数)能够提升五倍,并且GPU使用成本降低了80%。
为了满足不同模型的需求,火山引擎提供多种接入和使用方式,包括方舟MaaS平台、机器学习平台,以及AI云原生推理套件。
专为大模型推理设计的AI云原生推理套件ServingKit,帮助企业实现从模型的部署、推理到运维的全链路效率提升。在部署阶段,镜像下载和加载的加速服务,使得首次部署和扩展时能够迅速启动业务,Onion镜像权重加速引擎能在109秒内下载DeepSeek-R1满血版模型,40秒内进行缓存预热,13秒内完成权重加载。
在推理环节,通过引入GPU算子加速器、APIG AI网关、VKE编排调度以及KVCache缓存服务等手段,进一步提升推理性能。经过优化的算子使得R1满血版的每秒事务处理能力(TPS)增加了2.4倍,而智能路由的技术能够将总推理时间缩短60%。在处理长文本推理时,KVCache的命中率相比于GPU Local提升了十倍之多。
在运维管理方面,APM和VMP观测平台得到了全面升级,能够无侵入式地透明埋点推理业务,确保从资源层到业务层的全链路观测指标得到充分覆盖。
火山引擎与英特尔的合作,创新性地采用“云实例+镜像”的方式,为大模型开发提供了一种低门槛且高效率的解决方案,未来还将不断提升大模型的部署效率,并降低所需的算力成本。
结尾:从模型矩阵到智能体工具,助力AI应用的广泛落地
根据火山引擎副总裁张鑫的观点,企业在推进AI落地的过程中,应当清晰地划分为业务价值、模型基础设施和智能体应用这三大阶段。业务价值可以分步实现,首先要达成战略共识(-1→0),接着选择那些技术成熟度高、数据准备充分、业务价值显著的场景进行验证(0→1),在这一过程中企业应逐步建立自己的AI能力中心,并沉淀知识库,为后续的扩展复制(1→N)和价值重构(N→∞)打下坚实的基础。
在整个旅程中,企业所需构建的核心竞争力,源自于将AI技术运用到极致的产品体验设计,以及积累企业独特的领域知识和专业模型,同时培养面向AI的组织文化和人才。
技术的落地过程并非仅仅引入一个大模型那么简单,它还涉及多个维度,包括模型的选择、效果的评估、数据知识工程的建设、算力的准备、开发平台的搭建、模型的接入、效果的调优以及性能安全测试等多个环节。
火山引擎计划通过更全面的模型矩阵和更加丰富的智能体工具,助力企业打通业务与智能体之间的应用链路,进一步推动AI的普及,期待与更多企业共同将AI技术的落地方式从传统的手动编写“Hello World”代码,转变为更轻松的对Agent说“Hi”。
Please specify source if reproduced火山引擎重磅推出新技术:豆包视频生成与视觉深度思考模型全面升级,Trae功能大提升! | AI工具导航







