文｜魏琳华

编｜王一粟

越到春节越热闹，2月接近过半，全球AI行业迎来了一个忙碌的“超级发布月”。

海外御三家先后参战，先是OpenAI和Anthropic撞档期，前后脚发布了GPT 5.3 codex和Claude Opus 4.6，隔了几天，Google把Deep Think端了上来；国内，两家上市的六小虎智谱、MiniMax发模型，视频领域，快手的可灵3.0和字节的Seedance对打。真是好不热闹。

在这场模型对决中，字节算得上是本周掀起最大热度的一家参战者。不说Seedance 2.0的破圈效应，在发模型的力度上，字节本周一口气把视频、图片生成和大语言模型全都放了出来，每个领域都在刷存在感。

回顾这两年，其实在大语言模型的领域，字节的存在感显然不如视频、图文等多模态领域更强，但豆包却成了AI入口之争中表现最好的产品。

事事争先的字节，目标一定是全领域覆盖。所以这次的豆包2.0大模型（Seed 2.0），也是有备而来。

豆包之所以领先，靠的不仅仅是字节系流量的灌溉，更关键的是找对了用户想玩的场景。比如最近刷视频，天天都能刷到豆包指点人类穿搭。

所以在大语言模型的优化上，豆包的进展也延续了场景思路，重点在两个方向：一是继续在多模态能力上发光发热，二是为了火山引擎做铺垫，优化了Agent相关能力，让它在企业端更好用。

字节的AI野心，正在随着模型能力的补全缓缓展开。

进化靠场景：左手多模态、右手抓Agent

可以说，Seed 2.0更新最亮眼的能力，就是多模态的进化。

在官方晒出取得成绩的一系列领域中，一部分功劳就要归到视觉理解能力身上。以数学领域为例，字节超过海外多个闭源大模型的其中两个指标MathVista、MathVision，这两者重点考察模型对包含视觉信息的数学问题的理解能力——也就是模型不仅得数学好，还得“看”得明白。

除了视觉推理，在视频场景的理解上，Seed 2.0的表现也相对突出。在官方演示中，它能通过对于时间、运动感知的理解，让大模型看明白视频中的内容。比如吃透台球的走位、推测击打台球的位置。

不难想象，这个功能如果后期和视频通话进行联动，豆包又能做出来多少出圈视频。

多模态能力的加强，也让Seed 2.0优化了一些在现实中更刚需的场景。豆包不仅仅是基于用户需求优化，字节在做模型的思路上，也同样是朝着场景落地来做优化。

在Seed 2.0文档描述中，官方提到，之前分析过Seed 通用模型在 MaaS 服务中的调用情况，发现，最高比例的需求为处理混杂图表、文档等非结构化信息的知识内容。

光锥智能用网上搜集来的一张简历表的图片给到豆包做参考，让它做个一模一样的表格出来。在实际测试效果中，虽然表格的大小比例还需要自己优化，但豆包已经能把表格的内容完整复制下来。

左为参考图片，右为Seed 2.0生成的表格

我们又丢了一张混杂着各种柱状图表的图片让豆包解读，它也能准确识别不同轴每个月份的信息。并且读出来柱状图上的数字、不同颜色的轴代表的意义是收入和差值，然后讲解图片代表的意义。

另外，除了提升文件信息的处理，豆包这次把重心放在了Agent上。同样是为了企业应用的场景考虑，做了对长内容理解和连续多步骤执行能力的优化。

从测评数据来看，在Agent任务的执行上，Seed 2.0确实站上了第一梯队的位置。

以HLE（人类最后的测试，用于评判处理复杂任务的能力）为例，Seed 2.0拿到了52.4，超过了海外多个模型，超过了这几天新发的模型GLM 5.0、MiniMax 2.5。但如果和开源老大哥阿里的Qwen-3 Thinking Max（58.3）相比，还有些许差距。

为了测试豆包的Agent能力，光锥智能给了豆包一串月之暗面曾经展示过的提示词，让Seed 2.0做一个在手机端运行防止作弊的小问卷，主题是考验用户对豆包2.0的理解，一共出十道题就行。

虽然豆包一开始做的版本没办法点击测试按钮跳转到题目，但我们让它自动修正两次后，豆包把这个需求成功复刻出来了。能运行、能跳转、能打分。

再让它做了下连连看、黄金矿工这类小游戏，虽然在画面上还有很大的优化空间，不算美观。但豆包给到的已经是一个能直接运行的游戏网页。

可以说，现在的Seed 2.0，对于普通用户的体验来说足够友好。不过在今年大火的Coding场景上，豆包的大模型梯队还背着追赶第一梯队的任务。

比如，在SWE-bench Verfied（用代码解决问题的能力）测试上，Seed 2.0的表现还没办法和智谱、MiniMax的新模型抗衡。Vibe Coding上，Seed 2.0的表现也不算突出。不过字节也没准备把Coding塞到这个模型里，而是另发了一个Coding模型补全代码能力。

在模型定价上，Seed 2.0可以说把价格压到了非常低的程度，这一如既往地符合字节在大模型方面的低价策略。官方给出的价格展示中，Seed 2.0的输入价格被压低至0.6元/百万tokens，对比Claude Sonnet 4.5 3美元/百万token的价格，Seed仅是其 1/35，相比智谱GLM-5每百万tokens6元的价格，它仅是其1/10。

这样的价格，在Agent抢跑的2026年，可以想象，会成为字节做Agent的落地优势。

字节式胜利：视频模型的场景和速度战

如果说Seed 2.0是基础设施的加固，那么本周发布的视频模型Seedance 2.0，则算得上字节打得相当漂亮的一场仗。

时间倒退回几年前，可灵是第一个在国内引起震动的视频生成模型。而现在，这种先发优势正在被后者追赶上。

本月，快手和字节先后发布了视频生成模型的更新，快手发了可灵3.0，在分镜能力上有所优化，但目前还在内测阶段，尚未在官网全量上线；字节的Seedance 2.0虽然发得晚，但在真人素材、分镜、物理规律理解和视频匹配的音频效果上的优化，加上不到一周时间就基本开放到人人可用的程度，后者成为当前声量最大的视频生成产品。

但在实际测试中，光锥智能以快手可灵2.6和字节Seedance 2.0做测试，其实两者拉开的差距并没有大到拉开一个量级的差距。

就以物理规律为例，光锥智能以“台球撞击”为提示词，让两个模型分别生成白球击打红球、红球落袋的视频，从结果来看，两者各有优势：可灵2.6没有生成球杆击打的效果，但白球击中红球一次后就顺利落袋；Seedance 2.0给到了球杆击打的画面碰撞了两次红球才落袋。

但复盘Seedance 2.0的破圈之路，会发现，这个模型的破圈在场景需求+字节工厂的能力下，几乎是必胜的。

先说场景，字节在社媒的快速破圈，不仅是靠影视飓风Tim、游戏科学创始人冯骥的点评和测试，还有真人素材生成视频的玩法破圈。这种生成的真实度包括了人像的真实、语音效果和本人的接近，让更多用户愿意“尝鲜”。

找到场景的情况下，字节正在靠剪映、豆包覆盖到更多用户。当竞争对手快手可灵3.0仍处于内测阶段，仅限小范围用户体验的情况下，字节把Seedance 2.0的体验放到了剪映、豆包中。当前，剪映及海外CCapcu工具t在剪辑中处在断层领先的优势，而豆包也是AI助手月活第一的产品。