
AIPress.com.cn报谈
2月14日,字节零碎秘书豆包大模子庄重干与2.0阶段。
此次发布的中枢念念路很明确:跟着AI干与Agent期间,大模子不再仅仅修起问题,而是要在真正天下中本质复杂任务。豆包2.0围绕这个标的作念了系统性优化,强化了高效推理、多模态勾通和复杂指示本质三项中枢智力。
豆包2.0系列包含四款模子。Pro版面向深度推理和长链路任务,官方表态是全濒临标GPT5.2和Gemini3Pro。Lite版在性能和资本之间取均衡,详细智力超越上一代主力模子豆包1.8。Mini版面向低延伸、高并发和资本明锐的场景。Code版成心为编程场景优化,和字节自家的AI编程产物TRAE协作使用成果更好。
现在豆包2.0Pro曾经在豆包App、电脑端和网页版上线,用户切换到"大众"模式就不错体验。Code版已接入TRAE。面向企业和建设者,火山引擎曾经经上线了全系列的API行状。

先看多模态智力。豆包2.0在视觉勾通任务上的施展达到了寰球顶尖水平,视觉推理、感知智力、空间推理和长高下文勾通尤为凸起。Pro版在大多数有关基准测试中拿到了最高分。

在动态场景勾通方面也有显豁升迁。豆包2.0强化了对时候序列和指引感知的处聪敏力,在TVBench等要道评测中开端,在EgoTempo基准上甚而零碎了东谈主类得分。这意味着它对变化、算作、节律这类时序信息的捕捉愈加安逸,在本色旁边中的可靠性更高。
{jz:field.toptypename/}长视频场景是另一个亮点。豆包2.0在多数长视频评测上超越了其他顶尖模子,在流式及时问答基准中施展也很好。本色旁边场景包括及时视频流分析、环境感知、主动纠错和花样作陪。举个例子,它不错在你健身或试穿衣着时及时提供响应和提议,从被迫问答升级为主动率领。
再看谈话模子和Agent智力。要在真正天下本质长程任务,模子需要浅显而潜入的学问储备。豆包2.0在长尾边界学问上作念了重心加强。为止是,Pro版在SuperGPQA上的得分零碎了GPT5.2,在HealthBench上拿到了第又名,leyu体育在科学边界的全体得益与Gemini3Pro和GPT5.2绝顶。
推理和竞赛方面的得益也很亮眼。Pro版在IMO和CMO数学奥赛、ICPC编程竞赛中赢得金牌得益,在PutnamBench上零碎了Gemini3Pro。在HLE-text(被称为"东谈主类的临了熟悉"的评测)上拿到了最高分54.2分。用具调用和指示罢免测试中也施展出色。

不外跑分以外,豆包2.0可能最具竞争力的少许是订价。官方示意,模子成果与业界顶尖水平绝顶,但token订价缩短了约莫一个数目级。在Agent期间,复杂任务的本质时时触及大限度推理和长链路生成,会耗尽庞大token,资本鉴识在这种场景下会被急剧放大。低廉十倍意味着企业在琢磨预算下不错处理十倍的任务量,好像用十分之一的资本达到琢磨的成果。
Agent智力方面,字节展示了一个基于OpenClaw框架和豆包2.0Pro构建的智能客服案例。这个客服Agent部署在飞书上,能通过调用不同手段完成客户对话。遇到我方贬责不了的问题,它会主动拉群求援真东谈主共事。它还能帮客户预约上门维修东谈主员,维修完成后主动回拜,趁便推选春节优惠产物。系数过程不是预设的固定剧本,而是阐明本色情况动态有谋略。
Code模子的演示一样值得一看。字节用TRAE加豆包2.0Code搭建了一个叫"TRAE春节小镇·马年庙会"的互动形态。这个场景绝顶复杂:11个秉性各别的NPC由大谈话模子启动,会阐明东谈主设当然聊天、呼唤来宾、现场砍价。AI旅客们像真东谈主逛庙会一样,我方决定去哪个摊位、买什么、说什么。烟花起飞时的祝愿语、孔明灯上的四字题词皆由AI及时生成,每次干与小镇看到的互动皆不一样。
系数形态只用了一轮请示词完成基础架构和场景搭建,再经过几次调试,悉数五轮请示词就完成了。有关的请示词和素材曾经开源在GitHub上。
