2月12日至14日,字节跳动连续三天重磅发布三款AI模型升级产品,依次推出Seedance 2.0视频生成模型、Seedream 5.0 Lite图像创作模型,最终以2月14日豆包大模型2.0(Doubao-Seed-2.0)系列的亮相收官。
此次三连发不仅展现了字节跳动在多模态AI领域的全链路布局与技术积淀,也显示着我国自主研发大模型正式迈入“实用化攻坚”新阶段,通过技术普惠推动AI从实验室走向千行百业,为数字经济高质量发展注入新动能。
作为此次发布的核心,豆包大模型2.0是豆包系列自2024年5月正式发布以来的首次跨代大升级,聚焦真实世界复杂任务执行力,针对大规模生产环境需求完成系统性优化,在基础能力、多模态理解、企业级应用等维度实现全方位突破,整体性能跻身全球顶尖行列。
基础能力的跃升是豆包大模型2.0的核心竞争力。在语言模型核心领域,其Pro旗舰版表现亮眼,成功斩获IMO、CMO数学竞赛及ICPC编程竞赛金牌,在Putnam基准测试中更是超越Gemini 3 Pro,标志着我国大模型在数学与推理领域达到世界顶尖水平。为支撑长链路复杂任务执行,该模型大幅强化长尾领域知识覆盖,在SuperGPQA等多项公开测试集中表现突出,科学领域知识测试成绩与Gemini 3 Pro、GPT 5.2持平,跨学科知识应用能力排名前列,能够精准应对教育、科研、办公等场景的复杂知识需求。
多模态理解能力的全面升级,让豆包大模型2.0更懂“真实世界”。面对当下办公、娱乐、教育等场景中多样化的信息形态,该模型实现了视觉推理、空间感知、长上下文理解等权威测试的业界最佳表现,可高效解读图表、复杂文档、视频等多类型内容。针对动态场景,其进一步增强时间序列与运动感知能力,能够完成实时视频流分析、环境感知与主动交互,广泛适配健身指导、穿搭建议、看护陪伴等民生场景,让AI服务更贴近日常生活。
企业级Agent能力的跨代升级,成为豆包大模型2.0赋能产业的关键抓手。该模型重构Agent架构,大幅提升对技能的理解与应用能力,在Function Call、多轮指令遵循、搜索与工具调用等方面表现突出,格式输出更稳定,可灵活管理上下文,能够高效应对企业复杂、长程任务处理需求。
实测显示,豆包2.0 Pro在HLE-Text(人类的最后考试)中获得54.2的最高分,大幅领先其他同类模型,在数据分析、客服Agent等企业场景中展现出极强的实用性。同时,其代码能力也有不小的提升,可通过TRAE测试环境实现高效开发,进一步降低企业技术研发成本。
高性价比与便捷体验,让前沿技术实现普惠落地。据了解,豆包2.0 Pro按输入长度区间定价,32k以内输入定价3.2元/百万tokens,输出定价16元/百万tokens,相比Gemini 3 Pro、GPT 5.2具备明显成本优势;豆包2.0 Lite性价比更为突出,综合性能超越上一代主力模型豆包1.8,百万tokens输入价格仅0.6元。目前,豆包2.0 Pro已在豆包App、电脑客户端及网页版上线,用户切换至“专家”模式即可体验;火山引擎也同步上线该系列模型API服务,为企业级应用提供便捷接入渠道。
除核心语言大模型外,字节跳动同步推出的两款视觉创作模型,构建起“文本-图像-视频”全模态AI创作体系。
其中,2月13日发布的Seedream 5.0 Lite图像创作模型,相比上一代实现理解、推理与生成能力的全面提升,采用多模态理解生成统一架构,无需精准提示词即可通过简短、模糊的文本或图像输入,精准推测用户创作意图,在主体一致性、图文对齐等方面表现显著进步。该模型强化世界知识体系,覆盖科技、人文等多个垂类行业知识库,生成内容更符合物理规律,信息可视化能力大幅提升;首次引入实时检索增强能力,可通过联网获取最新资讯,完美适配热点资讯海报、学科板报等时效性创作需求,真正从“创意玩具”升级为办公、学习中的得力助手。
2月12日率先发布的Seedance 2.0视频生成模型,则实现了视频创作的“工业级”突破。该模型支持图像、音频、视频、文本四种模态输入,可实现文生视频、图生视频、视频编辑、视频延长等多种功能,能够高精度还原物品细节、材质、音色及运镜风格,稳定保持角色特征。其最大亮点在于大幅提升物理规律遵循能力,人物动作自然流畅,物体交互反馈真实,指令遵循精度显著提高,可精准执行动作、表情、运镜等细节要求,大幅降低反复调试成本。目前,该模型已在豆包、即梦、小云雀开启小规模内测,凭借出色表现获得业界广泛认可——环球时报评价其展现中国AI“厚土”与“高光”,观察者网报道海外网友高度赞誉,甚至有美国导演计划用其拍摄好莱坞大片,彰显我国视频生成AI的全球竞争力。
此次三大模型的集中发布,背后是字节跳动在AI领域的长期深耕与全链路布局。作为字节跳动AI技术产业落地的核心载体,火山引擎凭借领先的AI云市场份额,搭建起完善的模型服务体系,通过“万亿Tokens俱乐部”等客户案例,推动豆包系列模型在多行业规模化应用。从企业复杂任务处理到个人创意创作,从民生服务场景到产业升级实践,字节跳动正通过多模态AI技术的持续突破,打破技术壁垒,降低应用门槛,让前沿AI技术惠及更多企业与个人。
业内人士表示,字节跳动此次三连发,不仅彰显了我国自主研发大模型的技术实力,更标志着AI产业从“技术炫技”向“实用落地”加速转型。豆包大模型2.0系列的推出,进一步巩固了我国在多模态AI领域的领先地位,其全模态融合能力与产业适配性,将有效推动金融、医疗、教育、影视等行业的智能化转型,为数字经济高质量发展注入强劲动力。
据悉,未来字节跳动将持续践行“勇攀高峰”的年度关键词,不断优化模型推理成本与延迟,推动AI技术的普惠化应用,深化与各行业的合作,持续探索多模态AI的应用边界,让AI更好地服务于经济社会发展。
文 王如

