火山引擎大模型家族全面升级，“好模型+低成本”促进AI技术普惠

更新时间：2024-12-29 10:39 浏览量：28

火山引擎接连抛出重磅消息，近半年时间分别将大语言模型、视觉理解模型推进“厘时代”。此次火山引擎除了模型价格优势格外引人瞩目外，多模态大模型家族亦实现全面升级，首秀豆包视觉理解模型和3D模型，升级通用语言模型、音乐模型、文生图模型等产品。

火山引擎总裁谭待表示，期待通过“好模型+低成本”满足企业客户更广泛的需求，并且能够赋能不同行业的AI应用创新，推动实现AI技术普惠。

“全能型”多模态大模型升级，多项性能行业领先

经历了文本和语言大模型的探索，今年增强多模态能力成为大模型领域的关键议题。在近期火山引擎Force大会上最新亮相的豆包大模型支持更丰富的多模态交互，实现文本、图像、视频、音频等多种模态的输入、推理和生成。

其中视觉理解模型是最重要的AI基础模型之一。国开证券研报称，人类接受的信息超过80%来自视觉，视觉理解将进一步拓展大模型的能力边界，降低大模型交互门槛，解锁更多应用场景。

火山引擎研发的视觉理解模型对视觉内容有更强的识别能力，更强理解和推理能力，以及更细腻的视觉描述能力。

具体而言，豆包视觉理解模型能够识别图像知识、动作情绪、位置状态、中国传统文化、文字信息等内容，亦具有更强的文字符号识别能力（OCR）和对视觉内容中呈现的知识、文化背景、状态、情绪、数量、性质、位置等信息有更好的识别能力。在此基础上，该模型可以更好地基于指令进行视觉内容识别，并对中国传统文化信息有更强的理解。

在准确识别多模态输入内容之后，需要进行理解和推理。豆包视觉理解模型通过理解视觉内容中的文字、图像、图表等信息，能够进一步进行参考问答、总结摘要、以及进行数学、逻辑、代码等推理。

同时该模型具有更细腻的视觉描述和创作能力，即基于图像信息，更细腻地描述图像呈现的内容，并可对图像内容和状态进行产品介绍、宣传文章、视频脚本、故事诗歌等多种文体的创作。该模型能力的提升将直接助力学科教育、儿童陪伴、门店管理、手机助手、自动驾驶、电商购物等不同行业。

豆包文生图模型也发布重要升级，在业界率先实现“一句话P图”“一句话生成海报”功能，极大拓展模型的应用范围。

音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品。vivo今年10月发布的OriginOS 5系统已经搭载豆包音乐模型，该模型可根据用户提供的素材进行AI词曲创作，提供版权音乐、AI纯音乐等多种音乐选择，为用户生成独一无二的个性化大片。

豆包3D生成模型同样首次亮相，支持文生、图生及多模态生成，1分钟精准生成高保真高质量3D资产。该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持 AIGC 创作的物理世界仿真模拟器。

据了解，2025年春季将上线豆包视频生成模型1.5版，支持更长视频的生成。另外，豆包端到端实时语音模型也将很快上线，将解锁多角色演绎、方言转换等新能力。

总裁谭待表示，目前豆包大模型已成为国内最全面、技术最领先的大模型之一。

智源研究院最新发布的大模型综合及专项评测结果显示，在覆盖国内外100余个开源和商业闭源大模型的评测中，豆包通用模型pro获得大语言模型主观评测最高分；在多模态模型评测中，豆包视觉理解模型排名视觉语言模型第二，成绩仅次于GPT-4o；豆包文生图模型、豆包视频生成模型（即梦P2.0 pro）也分别在相应测试中获得全球第二。

光大证券研报分析，相较于传统单一模式的AI相比，豆包多模态模型能够更全面地理解复杂场景，并准确地结合产品设计匹配用户需求，有望带来更加智能和个性化的体验。体现在用户端数据方面，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。近3个月中，豆包在信息处理、客户销售、终端硬件、 AI工具等场景调用量分别增长39倍、16倍、13倍、9倍。

以技术优化成本，促进AI技术普惠

火山引擎为企业提供高性价比的多模态大模型，以更低成本推动AI技术普惠和应用发展。升级的通用大模型Doubao-pro能力全方位对齐GPT-4o，价格只有后者的1/8；豆包视觉理解模型千tokens输入价格仅为3厘，一元钱就可处理284张720P的图片，比行业价格便宜85％。

艾媒咨询CEO张毅认为，低价必然对企业或者对客户必然有一定的吸引力，客户更需要的是性价比，即性能卓越且价格公道，能否平衡好产品性能是最重要的。

对于火山引擎而言，大幅降价是可持续性的战略选择。谭待解释称，即便3厘/千tokens的价格，公司仍然能有合理的毛利。对于2B业务，如果毛利是负的，规模越大亏损越多，商业模式是不成立的。能做到这个价格其实是火山引擎模型技术能力、工程能力、软硬件结合能力的体现。比如算法上预训练阶段的特别优化工程上的错峰和混部，大规模的P/D推理分离，硬件优化等等。

技术先行，才能做好服务。谭待指出，豆包大模型从一开始，就确定了要同时为两个目标优化：更高的智能和更高的效率，以及对应的最低的成本。另外火山引擎在商业策略上，价格透明，不做高刊例低折扣，一步到位，让更多开发者和企业都用得起。放眼全球，OpenAl、Gemini都在不断优化效率，持续降价、降低客户成本。“我们也是真心希望，好模型+低成本，能让AI普惠更多客户尤其是个人开发者和中小企业。”

光大证券研报判断，强竞争力的定价或使得行业均降价，有望推动AI技术普惠和应用发展。

从实践来看，随着多模态模型能力提升，豆包大模型家族的应用场景也在不断拓展，渗透到金融、医疗、建筑、教育、体育和物流等细分行业。

目前豆包大模型家族通过字节跳动旗下云服务平台火山引擎面向企业提供服务，已经经过字节跳动内部50余个真实业务场景实践验证，超30个行业外部企业深度共创，豆包大模型适配多种业务场景，激发企业增长潜能。

诸多领域已经取得显著效果，例如梅赛德斯-奔驰利用火山引擎AI大模型提升智舱信息检索能力及智舱系统反应速度，扩展智能应用场景、提升智舱研发速度；OPPO通过与火山引擎的合作，成功推出“小晴” “文锋”、AI面试官、AI英语老师等四个AI智能体；海尔消金联合火山引擎实现90%以上的业务场景智能化，业务场景的智能化大幅提高了业务自动化水平和个性化服务的能力。

据统计，豆包大模型已经覆盖80%汽车品牌和国内主流手机、PC等3亿台智能终端，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

AI技术持续演进，多模态大模型加速落地，深入应用到更复杂的消费场景中，未来还将释放更大的商业价值。

新媒体编辑：徐铮

火山引擎大模型家族全面升级，“好模型+低成本”促进AI技术普惠

相似文章