
文|魏琳华
编|王一粟
越到春节越热闹,2月接近过半,全球AI行业迎来了一个忙碌的“超级发布月”。
海外御三家先后参战,先是OpenAI和Anthropic撞档期,前后脚发布了GPT 5.3 codex和Claude Opus 4.6,隔了几天,Google把Deep Think端了上来;国内,两家上市的六小虎智谱、MiniMax发模型,视频领域,快手的可灵3.0和字节的Seedance对打。真是好不热闹。
在这场模型对决中,字节算得上是本周掀起最大热度的一家参战者。不说Seedance 2.0的破圈效应,在发模型的力度上,字节本周一口气把视频、图片生成和大语言模型全都放了出来,每个领域都在刷存在感。
回顾这两年,其实在大语言模型的领域,字节的存在感显然不如视频、图文等多模态领域更强,但豆包却成了AI入口之争中表现最好的产品。
事事争先的字节,目标一定是全领域覆盖。所以这次的豆包2.0大模型(Seed 2.0),也是有备而来。
豆包之所以领先,靠的不仅仅是字节系流量的灌溉,更关键的是找对了用户想玩的场景。比如最近刷视频,天天都能刷到豆包指点人类穿搭。
所以在大语言模型的优化上,豆包的进展也延续了场景思路,重点在两个方向:一是继续在多模态能力上发光发热,二是为了火山引擎做铺垫,优化了Agent相关能力,让它在企业端更好用。
字节的AI野心,正在随着模型能力的补全缓缓展开。
进化靠场景:左手多模态、右手抓Agent
可以说,Seed 2.0更新最亮眼的能力,就是多模态的进化。
在官方晒出取得成绩的一系列领域中,一部分功劳就要归到视觉理解能力身上。以数学领域为例,字节超过海外多个闭源大模型的其中两个指标MathVista、MathVision,这两者重点考察模型对包含视觉信息的数学问题的理解能力——也就是模型不仅得数学好,还得“看”得明白。

除了视觉推理,在视频场景的理解上,Seed 2.0的表现也相对突出。在官方演示中,它能通过对于时间、运动感知的理解,让大模型看明白视频中的内容。比如吃透台球的走位、推测击打台球的位置。
不难想象,这个功能如果后期和视频通话进行联动,豆包又能做出来多少出圈视频。
多模态能力的加强,也让Seed 2.0优化了一些在现实中更刚需的场景。豆包不仅仅是基于用户需求优化,字节在做模型的思路上,也同样是朝着场景落地来做优化。
在Seed 2.0文档描述中,官方提到,之前分析过Seed 通用模型在 MaaS 服务中的调用情况,发现,最高比例的需求为处理混杂图表、文档等非结构化信息的知识内容。
光锥智能用网上搜集来的一张简历表的图片给到豆包做参考,让它做个一模一样的表格出来。在实际测试效果中,虽然表格的大小比例还需要自己优化,但豆包已经能把表格的内容完整复制下来。

左为参考图片,右为Seed 2.0生成的表格
我们又丢了一张混杂着各种柱状图表的图片让豆包解读,它也能准确识别不同轴每个月份的信息。并且读出来柱状图上的数字、不同颜色的轴代表的意义是收入和差值,然后讲解图片代表的意义。


另外,除了提升文件信息的处理,豆包这次把重心放在了Agent上。同样是为了企业应用的场景考虑,做了对长内容理解和连续多步骤执行能力的优化。
从测评数据来看,在Agent任务的执行上,Seed 2.0确实站上了第一梯队的位置。
以HLE(人类最后的测试,用于评判处理复杂任务的能力)为例,Seed 2.0拿到了52.4,超过了海外多个模型,超过了这几天新发的模型GLM 5.0、MiniMax 2.5。但如果和开源老大哥阿里的Qwen-3 Thinking Max(58.3)相比,还有些许差距。

为了测试豆包的Agent能力,光锥智能给了豆包一串月之暗面曾经展示过的提示词,让Seed 2.0做一个在手机端运行防止作弊的小问卷,主题是考验用户对豆包2.0的理解,一共出十道题就行。
虽然豆包一开始做的版本没办法点击测试按钮跳转到题目,但我们让它自动修正两次后,豆包把这个需求成功复刻出来了。能运行、能跳转、能打分。
再让它做了下连连看、黄金矿工这类小游戏,虽然在画面上还有很大的优化空间,不算美观。但豆包给到的已经是一个能直接运行的游戏网页。

可以说,现在的Seed 2.0,对于普通用户的体验来说足够友好。不过在今年大火的Coding场景上,豆包的大模型梯队还背着追赶第一梯队的任务。
比如,在SWE-bench Verfied(用代码解决问题的能力)测试上,Seed 2.0的表现还没办法和智谱、MiniMax的新模型抗衡。Vibe Coding上,Seed 2.0的表现也不算突出。不过字节也没准备把Coding塞到这个模型里,而是另发了一个Coding模型补全代码能力。

在模型定价上,Seed 2.0可以说把价格压到了非常低的程度,这一如既往地符合字节在大模型方面的低价策略。官方给出的价格展示中,Seed 2.0的输入价格被压低至0.6元/百万tokens,对比Claude Sonnet 4.5 3美元/百万token的价格,Seed仅是其 1/35,相比智谱GLM-5每百万tokens6元的价格,它仅是其1/10。
这样的价格,在Agent抢跑的2026年,可以想象,会成为字节做Agent的落地优势。
字节式胜利:视频模型的场景和速度战
如果说Seed 2.0是基础设施的加固,那么本周发布的视频模型Seedance 2.0,则算得上字节打得相当漂亮的一场仗。
时间倒退回几年前,可灵是第一个在国内引起震动的视频生成模型。而现在,这种先发优势正在被后者追赶上。
本月,快手和字节先后发布了视频生成模型的更新,快手发了可灵3.0,在分镜能力上有所优化,但目前还在内测阶段,尚未在官网全量上线;字节的Seedance 2.0虽然发得晚,但在真人素材、分镜、物理规律理解和视频匹配的音频效果上的优化,加上不到一周时间就基本开放到人人可用的程度,后者成为当前声量最大的视频生成产品。
但在实际测试中,光锥智能以快手可灵2.6和字节Seedance 2.0做测试,其实两者拉开的差距并没有大到拉开一个量级的差距。
就以物理规律为例,光锥智能以“台球撞击”为提示词,让两个模型分别生成白球击打红球、红球落袋的视频,从结果来看,两者各有优势:可灵2.6没有生成球杆击打的效果,但白球击中红球一次后就顺利落袋;Seedance 2.0给到了球杆击打的画面碰撞了两次红球才落袋。
但复盘Seedance 2.0的破圈之路,会发现,这个模型的破圈在场景需求+字节工厂的能力下,几乎是必胜的。
先说场景,字节在社媒的快速破圈,不仅是靠影视飓风Tim、游戏科学创始人冯骥的点评和测试,还有真人素材生成视频的玩法破圈。这种生成的真实度包括了人像的真实、语音效果和本人的接近,让更多用户愿意“尝鲜”。
找到场景的情况下,字节正在靠剪映、豆包覆盖到更多用户。当竞争对手快手可灵3.0仍处于内测阶段,仅限小范围用户体验的情况下,字节把Seedance 2.0的体验放到了剪映、豆包中。当前,剪映及海外CCapcu工具t在剪辑中处在断层领先的优势,而豆包也是AI助手月活第一的产品。

现在,你可以直接在豆包里用上Seedance 2.0
可以说,字节用速度和生态的覆盖,成功拿下了市场。
除了视频生成模型外,在图像生成方面,字节本周发布的Seedream 5.0 Lite延续了字节在图片生成领域的优势。这次的更新,主要围绕着实时信息搜索和指令遵循两部分能力的提升,前者让图片生成能够基于网上的信息增强理解效果,后者则让它生成的结果更符合用户提示词给出的需求。
反过来,字节在多模态能力上的持续加强,也在反哺着豆包App。
最近爆火的豆包视频实时指导你穿搭,效果搞笑,被更多人当成了新奇玩法,这些高频场景不仅培养了用户习惯,也为模型提供了更多有效的对话信息。
本周三个大模型更新的“超级发布周”,是一次典型的字节式胜利:优势不仅是单点技术的突破,还靠接地气的产品化能力和与普通用户贴近的场景。
模型层面,字节在春节前交了一个能让团队满意的答卷,证明了豆包不止是一个“搞笑姐”。产品层面,豆包要和各家大厂AI App打的仗,即将在春晚掀开帷幕。
随着模型能力差距的拉近,这场AI战争,注定越来越激烈。
本文来自投稿,不代表增长黑客立场,如若转载,请注明出处:https://www.growthhk.cn/cgo/model/154174.html
微信扫一扫
支付宝扫一扫