生成预测四大权威榜单第一！开悟世界模型确立具身智能世界模型新标杆

近日，大晓机器人开悟世界模型（Kairos）同时在 RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot、DreamGen等全球针对世界模型视频生成和状态预测的权威具身智能评测中均实现第一，超越 Cosmos3、PI、MotuBrain、being-H0.7、Abot、Fast-WAM、Wan2.2等全球主流世界模型。凭借首创的原生统一世界模型架构——“多模态理解—生成—预测”一体化架构，实现了从具身视频生成、任务指令追随、泛化能力到场景鲁棒性的全维度领先，并向全行业开源。

针对行业普遍基于视频生成模型做后训练所固有的物理缺失、因果匮乏与推理延迟等痛点，大晓机器人（ACE ROBOTICS）于2025年12月重磅推出创新的一体化统一架构。作为国内唯一坚持自主设计网络架构与自主预训练范式的团队，大晓彻底摒弃了“外挂式”改良捷径，从底层重构世界模型运行逻辑。该架构深度融合理解、生成与预测三大核心能力，依托自研混合线性注意力算子与全局状态共享机制实现全链路高效协同。这一颠覆性设计确立了全球主流演进方向，英伟达最新发布的Cosmos 3.0亦采用同源架构，印证了Kairos的绝对引领地位。

在数据层面，得益于完全自主的预训练范式，Kairos广泛汇聚十余万小时human-centric实景数据与数百万小时互联网真实世界视频，全面覆盖数百类职业场景。结合显式模仿学习与隐空间强化学习，模型彻底打通了从数据感知到深度理解的闭环，使基模型的场景认知、时序因果推演与泛化适配取得全方位突破。这不仅夯实了具身智能落地的底层基座，更为世界模型数据层面的尺度定律探索做出了重要贡献。

凭借领先架构与海量高质量数据，Kairos兼具强劲物理直觉、顶尖泛化能力与极致鲁棒性。基于此打造的Kairos-4B成为全球首款可端侧直驱机器人本体的具身世界模型，成功打通世界理解与状态预测的端到端闭环，消除中间转译延迟，让机器人真正实现“想到即做到”。这一里程碑式突破大幅提升了实时响应与作业精度，为具身智能的商业化落地开辟了全新路径。

登顶RoboTwin 2.0，复杂双臂操作能力获权威验证

在全球最具挑战性的双臂机器人操作评测基准 RoboTwin 2.0 中，Kairos 以 96.1% 的平均成功率位列所有参评方法第一，刷新当前最好成绩，并显著领先传统 VLA 模型，展现出在复杂双臂协作、精细操作与多任务泛化场景中的领先能力。

RoboTwin 2.0由上海交通大学、香港大学，联合上海人工智能实验室等研究团队共同推出的高难度双臂操作评测基准，包含50项复杂协同任务。该基准核心对比了VLA（视觉语言动作）模型与WAM（世界动作模型）两大技术范式，后者因具备环境动力学预测能力，更契合长时序推理与复杂规划需求。

在这一极具挑战的测试中，Kairos以96.1分的平均成功率强势登顶榜首。其在Clean（标准）场景取得96.9分，在Randomized（随机化）场景取得95.2分，不仅远超G0.5（93.2）starVLA（88.3）等VLA模型，也全面超越AIM（93.1）Fast-WAM（91.8）MotuBrain（96.0）等主流世界模型。这一显著优势得益于Kairos对世界动力学与动作演化的联合建模，使其在复杂双臂操作的规划、执行及应对现实不确定性方面实现了质的飞跃。

全面超越 VLA 模型登顶 LIBERO-Plus，实现世界模型路线范式超越

在全球最严苛的场景级泛化能力评测基准 LIBERO-Plus 中，Kairos 世界模型以89.0分的总成绩力压所有主流 VLA模型和世界模型，登顶全球榜首。

LIBERO-Plus 由上海创智学院、复旦大学、同济大学和新加坡国立大学的研究团队共同提出，通过模拟相机视角、机器人形态、语言指令、光照条件、背景环境、噪声干扰、空间布局等 7 种真实场景变量，测试模型在未知扰动下的鲁棒性，是衡量机器人能否适应开放世界的 “终极考验”。

评测结果显示，Kairos 不仅大幅超越同为世界模型的 Being-H0.7（84.8 分），更全面超越了包括 ACoT-VLA（88.0 分）、Pi 0.5（85.7 分）、ProGAL-VLA（85.5 分）在内的所有主流 VLA 模型。在核心子维度上，Kairos 展现出碾压级的环境鲁棒性：光照（97.7）背景（95.8）噪声（96.8）三大维度均取得接近满分的成绩，相机视角（95.5）语言指令（86.8）维度也位居前列。

这一里程碑式的成绩首次证明，世界模型路线在场景级泛化能力上已经超越了传统 VLA 路线。Kairos世界模型能够在光照突变、背景杂乱、存在噪声干扰的复杂环境中稳定执行任务，准确理解多样化的语言指令，并适应不同的相机视角。这意味着搭载 Kairos 世界模型的机器人以极小代价，即可直接部署到家庭、工厂、商场等多样化真实场景中，为具身智能的大规模商业化落地扫清了最后一道核心技术障碍。

登顶 WorldModelBench Robot，物理建模精度达到高水平

在衡量机器人世界建模能力的行业金标准WorldModelBench机器人专项测试中，Kairos-4B以9.30分的总成绩登顶全球榜首，仅用4B参数便全面超越了包括28B参数的Lingbot、16B参数的Cosmos3、14B参数的Abot-Physworld、5B参数的Wan2.2在内的主流模型，创造了世界模型领域参数效率的新纪录。

该基准由加州大学伯克利分校、加州大学圣迭戈分校、英伟达和麻省理工学院的联合研究团队提出，核心评估指令遵循和未来帧生成两大能力，直接决定机器人能否理解人类指令并预判动作后果，是具身智能最基础的核心能力。

评测结果显示，Kairos在多个核心维度实现全面领先。指令遵循得分2.36，与16B参数的Cosmos3并列全球第一，参数效率提升4倍；在物理遵循维度取得4.96分的高分，其中牛顿力学、重力两大核心物理规律维度全部斩获满分1.00；此外，在时序质量指标上取得满分1.00，展现出超越竞品的时序一致性与视觉连续性。

这一成绩标志着Kairos世界模型已同时具备世界级建模能力和物理级精准的环境交互能力，为具身智能从实验室走向大规模商业化落地奠定了关键技术基础。

斩获DreamGen双冠，泛化能力领跑全球

在专为机器人具身智能设计的DreamGen Bench评测中，Kairos世界模型一举夺得平均物理遵循（AVG_PA 0.538）和总平均分（AVG_Score 0.618）两项全球第一，全面超越 Cosmos3、Lingbot、Wan2.2等主流世界模型。

DreamGen 由英伟达，联合华盛顿大学、加州大学伯克利分校、加州大学洛杉矶分校等多所顶尖高校的研究团队共同提出，是目前系统性评估世界模型真实场景泛化能力的基准，其得分与下游机器人策略训练性能呈显著正相关，分数越高，模型生成的合成数据训练出的机器人实际表现越好。

在核心三大泛化场景中，Kairos世界模型在物理遵循（PA）维度上大幅领先，其中新行为执行得分0.489和新环境适配得分0.581位居全球第一。在指令遵循（IF）维度上，新行为执行得分0.745也取得第一名。综合泛化能力大幅超越 Lingbot、Cosmos3、Abot-PhysWorld 等主流世界模型。

这一成绩不仅印证了 Kairos 世界模型在物理世界建模上的绝对精度，更凸显了其行业领先的泛化能力。它意味着 Kairos 世界模型生成的合成数据不仅符合真实物理规律，更能有效迁移到从未见过的物体、行为和环境中，将大幅降低机器人在新场景下的训练成本和周期，为具身智能的大规模商业化落地提供了核心数据引擎。

四大权威榜单的全面领先，充分验证了 Kairos 世界模型技术路线的先进性和完整性。从基础的物理规律理解，到未知场景的能力泛化，再到复杂环境的鲁棒性和精细的双臂协同操作，Kairos 世界模型在具身智能的所有核心能力维度上都达到了全球顶尖水平。

本文来自投稿，不代表增长黑客立场，如若转载，请注明出处：https://www.growthhk.cn/cgo/model/162012.html