智东西
作者 | ZeR0
编辑 | 漠影
智东西于5月14日报道,在5月13日举办的火山引擎AI创新巡展·上海站活动中,火山引擎展示了大模型的全景图,并推出了豆包·视频生成模型Seedance 1.0 lite及豆包1.5·视觉深度思考模型,同时对豆包·音乐模型进行了升级。此外,Data Agent正式亮相,国内首款AI原生IDE产品Trae也接入了豆包深度思考模型,并升级了多个重要功能。
火山方舟目前涵盖了多种模型,包括语言处理、深度思考、视觉理解、图像处理、语音识别和GUI Agent等。
在会上,火山引擎副总裁张鑫指出,AI时代的新基础设施由模型、计算力、数据及安全构成,火山引擎正是为外部提供这“四大要素”:
在模型方面,豆包大模型支持超过50个内部真实场景及30多个行业的外部企业合作,截至4月份,日均tokens调用量已超过12.7万亿。
关于算力,火山引擎的AI云原生提供了强大的系统承载能力,涵盖了充足的计算资源、推理层优化及系统调度能力的结合。
在数据处理方面,数据飞轮2.0和Data Agent使用户能够基于动态的多模态数据湖,智能地重塑数据关系。
关于安全性,大模型安全方案提供的PCC私密云计算平台,能有效解决端云协同计算过程中的数据泄露问题,并通过大模型防火墙消除一系列攻击风险。
一、视频生成模型:效果卓越、生成迅速、成本低廉
新推出的豆包视频生成模型Seedance 1.0 lite,支持文本转视频及图像转视频,视频生成时长可选5秒或10秒,分辨率则有480P和720P可供选择。
企业用户可以通过火山方舟平台使用该模型API,而个人用户则可以在豆包App及即梦体验中使用。
作为豆包视频生成模型系列中一个小参数版本,Seedance 1.0 lite在两方面实现了显著突破:提高了影视级视频的生成质量和速度,兼顾了效果、速度与性价比。
(1)更精准的指令执行:该模型通过强大的语义理解能力,可以细致控制角色的外观、气质、着装风格及表情动作,并在多主体动作解析、嵌入式文本响应、程度副词与镜头切换等方面表现优异。
(2)更丰富的影视级运镜技巧:支持360度环绕拍摄、航拍、变焦、平移、跟随及手持等多种镜头表现形式,提供细腻高清的基础画质,呈现影视级的视觉效果。
(3)更合理的运动交互设计:该模型分析动作序列与空间关系,提升角色与物体之间自然流畅的交互动作,使运动轨迹和受力反馈更加符合现实规律。
Seedance 1.0 lite模型广泛适用于电商广告、娱乐特效、影视创作和动态壁纸等多种场景。例如,在电商领域,该模型能够帮助商家快速生成高质量的营销视频素材,精准匹配产品展示或活动推广,降低制作成本和周期。
二、豆包1.5·视觉深度思考模型:在60项评测中取得38项第一名
新发布的豆包1.5·视觉深度思考模型(
Doubao-1.5-thinking-vision-pro)激活参数仅为20B,但具备强大的多模态理解与推理能力,在60个公开评测基准中取得38个SOTA表现,在视频理解、视觉推理及GUI Agent能力等方面均位于第一梯队。该模型已正式上线于火山方舟。
在视频理解领域,豆包1.5·视觉深度思考模型展现出了优异的动态帧率采样能力,其视频时序定位功能得到显著提升,结合向量搜索技术,能够有效识别视频中与文本描述相匹配的片段。
此外,模型还增强了视频深度思考能力,经过数万亿多模态标记数据的学习,掌握了丰富的视觉知识。通过强化学习的应用,视觉推理能力得到了极大提高。例如,在面对复杂的图形推理题时,模型能够提出假设并进行验证。当假设不成立时,它还能进行反思,提出新的猜想,直到找到正确答案。
豆包1.5·视觉深度思考模型还引入了GUI Agent能力,凭借其强大的GUI定位性能,能够在PC和手机等多种环境中执行复杂的交互任务,比如对新开发的应用功能进行自动化检测。此功能已在字节跳动的多款应用产品开发测试中得到应用。
去年的火山引擎推出了豆包·音乐模型。依托此模型,用户只需提供一张图片或一句话,便可创作出十多种不同风格的高品质音乐。在本次大20250;上,豆包·音乐模型进行了升级,不仅支持英文歌曲的创作,还能够通过理解视频自动适配纯音乐背景音乐。
豆包·音乐模型现已全面上线,个人及企业用户可以在海绵音乐、火山引擎官网进行体验。
三、火山方舟:免登录,低价推理,3分钟搞定DeepSeek满血版部署
火山引擎的火山方舟是一站式大模型服务平台,提供语言、视觉及语音等模型的精调、推理和评测等多种功能与服务。借助丰富的插件生态和安全可靠的方案,企业及开发者的AI应用能够更为顺利地落地。
开发者在无需登录的情况下即可快速体验模型的各项能力。对于需要长期使用的实名用户,火山方舟简化了模型接入流程,无需多次页面跳转,用户只需两分钟便可完成模型的接入。此外,在安心推理体验模式下,火山方舟不会主动消耗付费资源,同时支持按模型分配tokens。
火山方舟还推出了两种离线批量推理方案。一种是从存储中批量读取数据以进行离线推理;另一种是通过类似在线聊天的模型接口,精准控制批量请求的动态负载,几分钟内便可完成开发适配。
火山方舟为每位用户提供每日不少于100亿个token的批量推理配额,并且价格更为划算。与在线推理相比,批量推理的费用下降了50%;若采用前缀缓存,命中部分价格再降低40%;同时存储费用为0元。
此外,火山方舟还提供超低延迟的小时级推理保障包。用户可以根据实际业务流量曲线精细规划所需资源,无需为业务低峰期支付费用,从而节约成本。例如,Deepseek-R1的推理保障包能够保持20ms的每token延迟,而豆包1.5 Pro的推理保障包则可将延迟降低至15ms。
卓越的性能源自丰厚的算力、深度技术优化与系统调度能力的结合。火山方舟依托雄厚的资源和先进的系统工程能力,确保高并发算力保障和极致的服务体验。在多项评测中,火山方舟的Deepseek-R1服务始终展现出最低的延迟表现。
这一切得益于火山方舟多年来在算子层、框架层和调度层的深度优化。通过Prefill Decode分离式部署、存算分离、内核优化及秒速扩容等技术,实现了在异构硬件协同优化与通信开销中的极致性能,确保方舟推理既快速又稳定。
有需要进行模型定制、部署及推理的企业客户,可以使用火山引擎的机器学习平台。此平台与方舟共享同一大模型推理引擎,具备业内领先的生产级可用的PD分离及分布式KV Cache能力。
火山方舟机器学习平台的创新与效率提升
火山方舟的机器学习平台打破了传统部署的繁琐步骤,用户只需通过预先配置的模型和镜像,以及PD分离部署的方式,便可在1至3分钟内一键启动所需的模型服务,从而完成DeepSeek推理集群的搭建。
凭借其高效的文本推理框架xLLM和分布式系统优化,平台将TPOT(吐字间隔)优化至仅20毫秒。以两台8卡H20为例,xLLM在DeepSeek-R1 671B模型上的推理性能相比开源的SGLang方案提升了4.5倍的吞吐量(tokens/s),同时每个token的延迟也减少至原来的三分之一。
基于自主研发的DiT推理框架veFuser,该平台能够在15秒内生成一个时长5秒、分辨率为480P的视频,推理效率相比行业平均水平提高了4.5倍。
火山方舟还提供了全周期的安全与可信解决方案,通过链路全加密、数据高保密性、环境的强隔离以及操作的可审计四个安全模块,确保每次会话的隐私性。
火山方舟应用实验室为用户和开发者提供了全面的场景化解决方案以及完整的源代码。针对应用插件、多模态终端等不同场景,提供了超过20个开源应用;同时,也为具备专业开发能力的企业开发者提供了大模型应用开发所需的工具和流程,支持快速开发与定制适应业务需求的大模型应用,并兼容超过60种大模型产品,用户可便捷地将方舟大模型整合到主流软件中。
此外,火山方舟应用实验室广场还包含许多有趣的应用,例如,智能导购帮助网店运营,豆包模型与DeepSeek联合提供的长期记忆方案,结合多模态与硬件能力的实时对话AI设备,以及提供标准化解题流程的教师分身等。
Data Agent助力企业探索数据资产,新版Trae接入豆包深度思考模型
Data Agent是火山引擎推出的企业数据全场景智能体,犹如企业级的AI数字专家,具备主动思考、洞察、分析和行动的能力,能够有效帮助企业发掘数据资产的潜在价值,其功能覆盖数据分析、智能营销等多个关键领域。
在数据分析方面,Data Agent能够将企业内部的结构化与非结构化数据整合,结合联网知识,精准把握业务需求,并快速生成专业的深度研究报告。
通过自动化制定分析方案、追踪指标波动、运用自助分析工具及建立预警系统,Data Agent实现了数据处理的全流程智能化,能够将复杂报表的生成时间从两天缩短到30分钟,极大提高了数据获取和决策的效率。
在智能营销领域,Data Agent能够实现从策略制定到执行优化的全链路闭环管理,高效完成目标人群的圈选与策略拆解,并基于个性化引擎实现精准的营销。
此外,其智能会话辅助与自动复盘优化功能,能够不断提升转化率与客户满意度,动态调整营销策略。
五、豆包大模型产业加速落地,助力游戏与医药行业创新发展
豆包大模型已经在多个行业取得了显著应用,包括汽车、智能终端、互联网、金融、教育科研、零售消费等,覆盖了4亿台终端设备,涉及了八成的主流汽车制造商、70%的系统重要性银行、数十家证券及基金公司、近70所C9顶级高校及100多家研究机构。
在游戏领域,巨人网络正在利用大模型的强大能力,推动游戏体验和玩法的创新。通过火山方舟接入豆包大模型及DeepSeek,巨人网络在其旗下的游戏《太空杀》中引入了AI原生玩法“内鬼挑战”。借助火山方舟DeepSeek-R1和豆包大模型的深度思考能力,游戏中实现了AI玩家与真实玩家之间的实时策略对抗,重新定义了社交推理游戏的智力边界。
同时,《原始征途》的AI智能NPC“小师妹”也得以上线,这一角色通过大模型技术提升了游戏的策略指导与情感互动,为玩家带来了更加智能和人性化的体验,从而显著增强了玩家的留存率。
此外,借助火山引擎的机器学习平台所提供的大模型训练和资源支持,巨人网络还积极推动自研视频生成和游戏音效生成大模型的持续优化。
在医疗领域,礼来制药构建了一套专属的AI应用开发平台,旨在从药物研发到疾病诊疗的各个环节实现创新。
通过可视化的拖拽式工作流,礼来制药成功搭建了HCP Chatbot和地区经理辅导报告等智能体,这些智能应用在学术交流、销售培训及疾病教育等多个场景中得以广泛应用,确保了企业AI资产的沉淀与可持续运营。
六、全链路、全场景AI云原生推理套件,助力企业加速AI转型与升级
伴随着DeepSeek的不断升温,火山引擎的MaaS流量也迎来了新一波的增长。目前,火山引擎的MaaS服务支撑着DeepSeek和豆包大模型,具备每天高峰期千卡级的GPU弹性能力、500万初始TPM(每分钟令牌数)和超过3万的RPM(每分钟请求数),日均Tokens使用量已达到12.7万亿。
火山引擎AI云原生推理套件的相关产品为这些能力提供了强有力的支持。
根据第三方评测机构的排行榜,火山引擎DeepSeek服务在首token、推理速度以及生成速度上均表现出色。在相同硬件条件下,DeepSeek-R1满血版相比开源SGLang,TPS吞吐率可提高至5倍,GPU使用成本则降低了80%。
针对不同的模型,火山引擎提供了多种接入和使用方案,包括方舟MaaS平台、机器学习平台以及AI云原生推理套件。
面向大模型推理的AI云原生推理套件ServingKit,旨在帮助企业实现从模型部署、推理到运维的全链路效率提升。
在部署过程中,镜像下载和加载的加速服务保证了首次部署与扩展阶段能够快速开展业务。Onion镜像权重加速引擎使得DeepSeek-R1满血版模型的下载时间缩短至109秒,缓存预热时间为40秒,权重加载仅需13秒。
在推理环节,通过GPU算子加速器、APIG AI网关、VKE调度以及KVCache缓存服务等功能的升级,进一步优化了推理性能。算子优化后,R1满血版的TPS提升了2.4倍;智能路由技术使得TTFT降低了60%;在长文本推理场景下,KVCache的命中率较GPU Local提升了10倍。
在运维阶段,观测平台APM与VMP进行了全面的升级,现已支持无侵入式透明埋点的推理业务,覆盖了从资源层到推理业务层的所有链路和场景的观测指标。
火山引擎与英特尔联手,采用“云实例与镜像”的组合方式,提供了一个门槛低且效率高的大模型开发通道,同时也将不断提升大模型的部署效率并降低算力的投入成本。
总结:从模型矩阵到智能体工具,推动AI应用的广泛普及
根据火山引擎副总裁张鑫的见解,企业在AI落地的过程中应当走好三个阶段:业务价值、模型基础设施与智能体应用。业务价值可以逐步实现,首先需达成战略共识(-1→0),接着选择技术成熟度高、数据准备充分、业务价值显著的场景进行验证(0→1),在这一过程中逐步建立自己的AI能力中心和企业知识库,为后续的扩展复制(1→N)与价值重塑(N→∞)打下坚实基础。
在整个旅程中,企业所需构建的核心竞争力源于通过AI实现卓越的产品体验设计,沉淀独特的领域知识库甚至专业模型,并打造适应AI的组织和文化。
技术落地的过程远不止于引入一个大模型,而是涉及多个维度,包括模型选择、效果评估、数据知识工程、算力准备、开发平台的构建、模型接入、效果优化以及性能安全测试等环节。
火山引擎计划以更全面的模型矩阵和更加丰富的智能体工具,帮助企业打通从业务到智能体的应用链路,进一步推动AI的普及,希望与更多企业共同将AI科技的实现方式从手动编写“Hello World”代码转变为轻松地与Agent打招呼。
Please specify source if reproduced火山引擎重磅发布:豆包最新视频生成模型与视觉深度思考模型,Trae多项核心功能焕新升级! | AI工具导航
