具身智能的战国时代,蚂蚁怎么破局?

具身智能,蚂蚁已筑基

具身智能的战国时代,蚂蚁怎么破局?

文|白 鸽

编|王一粟

继通用大模型之后,蚂蚁又将“触手”延伸到世界模型的赛道。

1月30日,蚂蚁集团旗下灵波科技发布并开源了全球首个基于自回归范式的“视频–动作”世界模型(Video-Action World Model)LingBot-VA。

而在此之前,蚂蚁灵波科技已经连续3天发布3款开源大模型,包括高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World。

可以看到,基于这四款大模型,蚂蚁灵波科技的技术已经覆盖了具身智能所需要的空间感知、通用操作、世界建模与闭环控制四大能力。

显然,这并非是简单的一次技术发布,而是一次系统性、战略性的技术布局亮相。

事实上,此前蚂蚁在具身智能赛道的布局,更多是以投资为主。但自2025年8月蚂蚁灵波科技正式成立以来,短短数月时间,就发布了这一套完整的技术体系,蚂蚁在具身智能赛道的动作如此之迅速,已经完全超出了行业对其预期。

毫无疑问,具身智能是当前AI市场中最火热的场景之一。今年CES之后,物理AI更成为行业主流趋势,无数玩家争相布局。

但是,尽管行业火热,现如今却仍处于早期阶段,行业技术路径尚未收敛,并未形成统一的技术范式,VLA/世界模型、仿真/真实数据之争仍然不绝于耳。

与此同时,国内具身智能产业链中,更多企业是聚焦在本体制造或垂直场景落地,软件栈更多依赖外部AI公司,极少有企业系统性投入底层通用模型研发。

“蚂蚁灵波科技,是一个做具身智能底座的公司,所以我们更希望能够看到基座模型能力的提升。”蚂蚁灵波CEO朱兴如此说道。

在没有竞争的地方竞争,是后来者能够进行突围的关键因素之一。

避开宇树、银河通用等明星企业的优势赛道,蚂蚁灵波科技这种更专注于做底层基础模型能力的打法,在全球具身智能尚未形成统一技术范式的当下,或许正是那个“定义基座”的关键时刻。

那么,蚂蚁灵波科技这套技术体系到底能够达到业内什么水准?以及在仍处于“战国时代”的具身智能赛道中,蚂蚁灵波科技又能够怎么实现差异化突围?

机器人聪明的第一步眼、手、脑要协同

具身智能的本质,是让机器像人类一样进行“感知–决策–行动”这一套完成闭环的动作能力。

这其中,实现这一切的起点,是“看见”的能力。

然而,在家庭、工厂、仓储等真实复杂场景中,透明物体、高反光表面、强逆光环境等始终是机器人视觉系统的“噩梦”。

原因在于,传统双目或结构光深度相机在这些场景下往往失效,导致深度图缺失、噪声严重,进而直接影响抓取、避障等下游任务的可靠性。

具身智能的战国时代,蚂蚁怎么破局?

此次蚂蚁灵波科技首发高精度空间感知模型LingBot-Depth,就是为了解决机器人“看见”的问题。

那它是怎么解决这个问题的?

核心在于“掩码深度建模”(Masked Depth Modeling,MDM)技术。

具身智能的“看”,是建立在基于传感器设备收集外部环境信息,所构建的三维深度图。

而三维深度图的本质,是给现实世界每个像素标注距离的“全视角距离地图”。

但实际采集时,反光物体(如玻璃、镜子)测不出深度、遮挡角落数据空白、暗光环境数值出错等问题,会形成被称为“掩码区”的缺失或错误区域,就像一张好好的画被抠了好几个洞。

蚂蚁灵波科技的这套技术,充当的就是“AI工匠”的角色。

其通过分析同一视角普通彩色(RGB)图的视觉线索与场景常识,如图像中的纹理、轮廓及环境上下文信息等,对这些“破洞”进行像素级精准补全和修正,从而输出完整、致密、边缘更清晰的三维深度图。

具身智能的战国时代,蚂蚁怎么破局?

基于此,可以让机器人从基础的看得见,能够向看得更清、更准突破。

目前,该模型的性能已通过权威验证:

在NYUv2、ETH3D等基准测试中,相对误差(REL)较PromptDA、PriorDA等主流方法降低超70%,稀疏SfM任务中RMSE误差下降约47%,树立了新的精度标杆。

更关键的是,它并非单纯算法创新,而是与硬件深度协同的成果,是基于奥比中光Gemini 330系列双目3D相机的芯片级原始数据训练验证。

实测中,不更换硬件的前提下,该相机在透明玻璃、强逆光等极端场景下输出的深度图,完整性与边缘锐利度均优于Stereolabs ZED等国际领先产品。

而这一突破的意义,远超“看得更清”。

毕竟,当前行业多数方案仍依赖昂贵的激光雷达或定制结构光模组,成本动辄数千美元。

而LingBot-Depth让百美元级双目相机具备工业级鲁棒性,直接打通了服务机器人、物流分拣、家庭助理等大规模商用场景的成本瓶颈。

如果说LingBot-Depth解决了“眼睛”的问题,那么LingBot-VLA和LingBot-World则分别构建了机器人的“手脑”与“内心世界”。

LingBot-VLA是一款面向真机通用操作的具身智能基座模型,核心优势在于极强的泛化能力。

业界皆知,长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。

那么,LingBot-VLA解决这一问题,最关键的一点,就在于全部采用真实世界的机器人操作数据,而不是使用仿真数据。

其数据规模从最初的3000小时,一路扩展到20000小时,全部源自真实物理世界。

更重要的一点,这些数据不仅仅是来源于单一形态的硬件机器人,而是使用了9种不同品牌和构型的双臂机器人,包括AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龙机器人、ARX Lift2以及Bimanual Franka。

具身智能的战国时代,蚂蚁怎么破局?

据公开资料显示,蚂蚁灵波科技的团队自2023年开始,就与星海图、松灵机器人等展开合作,在真实实验室里,通过遥控操作的方式,让机器人完成成千上万次抓取、放置、组装等动作。

这就使其具备了很强的泛化性,能够让同一个“大脑”可以无缝迁移至不同构型的机器人,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

在上海交通大学开源的具身评测基准GM-100(包含100项真实操作任务)测试中,LingBot-VLA在3个不同的真实机器人平台上,跨本体泛化平均成功率相较于Pi0.5的13.0%提升至15.7%(w/o Depth)。

另外,在引入深度信息(w/Depth)后,随着空间感知能力的增强,其平均成功率进一步攀升至17.3%,刷新了真机评测的成功率纪录,验证了其在真实场景中的性能优势。

在RoboTwin 2.0仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA凭借可学习查询对齐机制,高度融合深度信息,操作成功率比Pi0.5提升了9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

值得一提的是,与高精度空间感知模型LingBot-Depth相互配合,LingBot-VLA还能获得更高质量的深度信息表征,通过“视力”的升级,真正做到“看得更清楚、做的更明白”。

但想要具身智能拥有更高阶的能力,就需要“预测未来”。

LingBot-World是个开源的、支持长时序物理一致推演的世界模型,也是一个专为交互式世界模型设计的开源框架。

其主要有三个核心优势:

  • 能稳定生成近10分钟的连续画面,就算镜头移开再回来,里面的物体也不会变形或消失;
  • 每秒能生成16帧画面,操作后1秒内就能看到反馈,还能响应键盘鼠标操作和文字指令(比如调天气、改画风);
  • 通过混合多种数据训练,不用额外训练就能适配新场景,比如上传一张街景照就能生成可交互的视频。

这三个核心优势,也对应了世界模型所必须具备的核心能力,长时记忆能力、风格泛化性以及动作代理能力,目前全球只有谷歌DeepMind的Genie3具备类似能力。

值得一提的是,继蚂蚁灵波开源了Lingbotworld世界模型后,谷歌也宣布开放了体验平台,世界模型的开源开放的窗口被打开了!

可以看到,Genie3开放体验,让全球对世界模型的关注进一步加速,但相比较来说,蚂蚁灵波已经把世界模型用到具身智能上能直接操作机器人了。

毕竟,蚂蚁灵波科技不仅开源世界模型,还将其与VLA深度打通:“VLA负责输出动作,世界模型则在执行前进行成千上万次推演,评估不同方案的物理后果,最终选出最优路径。”

这种“先思考、再行动”的架构,正是人类智能的核心特征之一。

它解决了当前具身智能普遍存在的“短视操作”问题,即只能完成几步简单动作,而无法规划复杂流程(如厨房做饭、工厂装配)。

综合来看,蚂蚁灵波科技这三款大模型产品都并不是独立存在的产品,而是能够相互结合补充,成为一套体系化的具身智能技术底座。

同时,尽管蚂蚁灵波科技只做具身智能的大脑,但他们的这个大脑并不是空中楼阁,而是基于软硬件一体化,以及真实场景数据所打磨出来的,能够真正解决具身智能的泛化能力弱等问题。

更为重要的一点,是性价比,成本低,效果好,这使其能够真正应用到具体场景当中。

具身智能终极进化让机器人学会“自主想象”

在一些简单的场景中,通过眼、手、脑的协同,机器人能够做的任务有很多了。但在复杂任务中,机器人做任务的成功率却并不高。

举个例子,煎牛排并不是只需要做把牛排放进去煎的动作,更要能够自主判断这个牛排是三分熟、五分熟还是全熟,这对于现阶段的具身智能模型来说,是一个极大的挑战。

而判断牛排的熟度,所需要考虑就不仅是怎么做,更多还是要具有逻辑思考和判断因果关系能力。

那么,怎么才能让具身智能懂因果关系?

这就是此次蚂蚁灵波科技四连发的最后一款重磅模型所要解决的问题。

LingBot-VA,是基于自回归范式的“视频–动作”世界模型(Video-Action World Model),它不仅能生成视频,还能在生成未来画面的同时推演并输出动作序列,实现了“先想象,后行动”,直接驱动机器人在物理世界中完成复杂操作。

其核心在于提出了“因果自回归世界建模”的新思路。

一般来说,传统的世界模型是将“看”“想”“做”拆分为独立模块;而Video-Action自回归模型在一个端到端框架内完成全部任务:

  • 看:编码当前视频;
  • 想:在潜在空间中模拟未来多步演化;
  • 做:通过反向梯度或规划器优化动作序列以达成目标。

其关键突破在于,具身智能的动作不再是“外部输入”,而是模型内部可优化的变量。

而LingBot-VA实现这一能力的背后,主要有三个技术亮点:

其一,MoT架构,采用Mix-of-Transformer架构,将高维视频Token与低维动作Token映射到统一潜空间。

理解这个架构前,我们先搞懂2个关键词:

视频Token是机器人摄像头拍的画面,被拆解成的关键信息块(比如桌子、杯子的位置、形状特征),画面信息多、细节杂,所以叫“高维”;

动作Token是机器人要做的动作,拆解成的简单指令(比如机械臂抬30厘米、夹爪张2厘米),信息简洁,所以叫“低维”。

而MoT架构就是给这两种完全不同的信息,设计了统一的处理框架,同时还能根据“画面”和“动作”的不同特点分开优化处理(不用两套系统各干各的)。

说白了,就是让机器人能把“看到的环境”和“要做的动作”精准对应,如看到杯子在左边,立刻匹配“机械臂左移”的动作,既不会让画面和动作脱节,又能节省计算资源,机器人反应更快。

其二,闭环推演,让模型在每一步生成时都会纳入真实世界的实时反馈,确保持续生成的画面与动作不偏离物理现实,有效解决幻觉问题。

语言大模型的“幻觉”是瞎白话,而机器人的“幻觉”则是瞎猜动作,比如没看到杯子还伸手去抓,或者抓了东西没确认,就脑补“抓到了”继续下一步,最后全错。

闭环推演就是给机器人加了“实时核对”的机制,即做一个动作(比如伸手抓杯子),立刻用摄像头看真实环境的变化(到底抓到没、杯子位置变没变),把这个真实反馈和自己预想的结果对比,不对就马上调整下一步。全程不脑补、不瞎猜,确保每一步动作都和当下的真实环境匹配,从根上避免了因“想当然”而出错。

其三,异步推理能力,是机器人一边执行当前动作(比如正在拿杯子),一边规划下一个动作(比如下一步倒水),不用等当前动作做完再想,效率翻倍。

不过,在LingBot-VA中,“异步推理”并非简单的“边做边想”,而是一套结合实时反馈修正、缓存管理、并行计算调度的完整技术方案。

其核心是解决“同步推理时计算与执行相互等待”的latency瓶颈,同时避免“盲目并行导致的轨迹漂移”。

基于此,LingBot-VA不仅考题通过率拉满,还解决了机器人容易“越做越歪”的老毛病。

具身智能的战国时代,蚂蚁怎么破局?

真机评测中,LingBot-VA在多项高难操作任务上性能超越业界标杆 Pi0.5

在机器人行业公认的LIBERO、RoboTwin两大测试基准中,这套架构让复杂任务的成功率分别达到98.5%和92%+,相当于在标准考题里几乎都能做对,成绩远超之前的技术。

更关键的是,其解决了长时漂移的问题。

传统机器人做多步骤复杂任务(比如开冰箱→拿牛奶→关门),可能第一步开冰箱有点小误差,后面没校准,误差越积越大,最后拿不到牛奶还撞冰箱。

而LingBot-VA因为每一步都有闭环反馈校准,小误差会被及时修正,不会累积,不管任务有多少步骤,机器人的动作都能保持准确,不会越做越歪。

值得一提的是,该大模型还具备快速适配能力,得益于大规模多源数据预训练,面对全新的机器人平台或任务(无论是单臂、双臂还是长时序操作),仅需5到10条演示数据即可完成适配。

通俗理解,传统机器人学新任务、适配新机型,得喂成百上千的教学视频,花大量时间训练。

LingBot-VA在面对新机器人(比如换个新机械臂)或新任务(比如教机器人拿快递)时,只需要30~50条数据进行后训练,它就能快速学会并适配,不用重新大规模训练,学新东西的速度和成本都大幅降低。

从行业视角看,LingBot-VA的出现,标志着具身智能正从“模仿学习”向“生成式推理”跃迁。过去,机器人依赖大量人类演示;未来,它们将具备自主想象、评估、选择的能力。

如DeepMind在Genie论文中所言:“我们不是在教机器人如何行动,而是在教它如何想象世界。”

从基模到应用蚂蚁的AGI“野心”

尽管蚂蚁只做具身智能的大脑,但其从一开始就没打算单打独斗。

LingBot-Depth是与奥比中光联合研发;数据采集阶段用到了星海图、松灵的硬件平台;预训练阶段有乐聚、库帕思等多家企业提供高质量数据支持。

而得益于其此前的资本布局,蚂蚁在具身智能底座成型后,更容易实现其商业化落地。

此前,蚂蚁已经投资了宇树科技、星尘智能等从上游灵巧手到下游场景应用的全链条企业,还通过合资公司等形式与智元机器人保持紧密合作。

由此来看,随着自研团队(蚂蚁灵波科技)与被投企业(星尘、首形、灵心巧手等)协同发展,蚂蚁有望在2026–2028年推动人形机器人在零售、文旅、金融网点等场景实现规模化商用。

当然,这种“自研基座+生态协同”的模式,也刚好契合了行业发展的关键节点。

2024-2025年上半年,具身智能行业还处在“Demo比拼期”,但从2025年下半年开始,市场将进入大量的“订单验证期”,商业交付能力,成为了衡量具身智能企业的关键因素之一。

因此,迈入2026年,具身智能赛道玩家必须要拿到实际的订单,甚至开始有实际交付,才能证明公司具备从产品设计、供应链稳定到市场需求的全链条闭环产品落地能力。

蚂蚁灵波科技“专注基座”的选择,也恰好踩中了行业痛点:

很多机器人企业有本体制造能力,却缺乏底层通用模型,蚂蚁灵波科技的开源战略,则让这些企业能低成本接入顶尖技术。

随着“蚂蚁灵波科技”系列连续发布四款具身领域大模型,蚂蚁的AGI战略,已经实现了从数字世界到物理感知的关键延伸。

具身智能的战国时代,蚂蚁怎么破局?

这也标志着,蚂蚁“基础模型–通用应用–实体交互”的全栈路径已然清晰。

而蚂蚁集团AI战略的核心,可以理解为“双轮驱动”:一边用AI深耕应用场景(生活、金融、医疗三大赛道),一边不放弃基础大模型研发,探索智能上限。

通用语言大模型上,蚂蚁百灵大模型已经跻身万亿参数模型阵营;AI应用领域,蚂蚁旗下的AI健康应用阿福,成为国内首个月活超千万的AI健康应用;11月则发布了全模态通用AI助手“灵光”。

而此次深度布局具身智能赛道,则是其将AI从虚拟世界带入物理世界的关键探索。

在全球具身智能尚处“战国时代”的今天,群雄逐鹿之下,蚂蚁的选择清晰而坚定:不做封闭的“黑盒”,而做开放的“地基”。

显然,在行业从“讲故事”转向“看落地”的2026年,筑基者比造车者更稀缺,也更关键。

这场物理世界AI从“看清”到“想象”的进化,才刚刚开始。而蚂蚁,显然已经站在了地基之上。

此外,除了自身技术产品体系外,在探索AGI这条路上,蚂蚁也一直做开源生态的布局。

据蚂蚁灵波科技CEO朱兴介绍,蚂蚁集团坚定以开源开放模式探索 AGI,为此打造 InclusionAI,构建了涵盖基础模型、多模态、推理、新型架构及具身智能的完整技术体系与开源生态。

这一开源开放的核心策略,不仅能加速蚂蚁 AGI 版图的扩张,更能汇聚海量生态伙伴,成为推动 AI 应用从移动互联网向物理世界迈进的关键动力。

纵观其在AI赛道上的诸多动作,可以看到蚂蚁已完成了从通用基础大模型,到AI应用,再到物理AI世界的体系化技术能力和产业应用的生态布局。

显然,在这场迈向AGI的道路上,蚂蚁已正式上站上AI竞争的牌桌,开始跟全球玩家掰手腕。

本文来自投稿,不代表增长黑客立场,如若转载,请注明出处:https://www.growthhk.cn/cgo/model/153131.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 1小时前
下一篇 13分钟前

增长黑客Growthhk.cn荐读更多>>

发表回复

登录后才能评论