清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World能力登顶全球

机器之心编辑部

在全球具身智能领域的顶级权威评测 WorldArena 榜单中，清华陈建宇（星动纪元创始人）团队联合斯坦福 Chelsea Finn（PI 创始人）团队研发的 Ctrl-World 世界模型交出优异答卷：

具身任务能力斩获全球第一，更在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度登顶；视频生成能力排名全球第二，仅次于阿里 Wan 2.6，强势超越谷歌 Veo 3.1、英伟达 Cosmos-Predict 2.5 等世界顶尖模型； Ctrl-World 成为在「视频生成质量」（看起来真实）与「具身任务」（真正可用）两大维度均跻身顶级梯队的世界模型。

14 个世界模型在 WorldArena 融合多维度表现的 EWMScore 综合指标评分

(a) Ctrl-World 在具身策略评估一致性上高达 0.986，远超英伟达等同类模型；(b) Ctrl-World 以 59.70 在视频生成质量上排名全球第二，超越谷歌 Veo 3.1（58.87），仅次于阿里 Wan 2.6（61.86）

WorldArena：

全球具身世界模型的「终极试炼场」

WorldArena 之所以能成为行业公认的权威榜单，核心在于其「全面、硬核、具引领性」的定位，彻底区别于泛化的 AI 评测体系，其专业权威源于三大核心特质：

1. 硬核基准：顶尖学术共建，全方位综合评测

WorldArena 由清华大学牵头，联合普林斯顿大学、新加坡国立大学、北京大学、香港大学、中科院、上海交通大学、中国科学技术大学等 8 所全球顶尖学术机构共同研发，团队成员均为具身智能、计算机视觉、机器人学领域的权威学者，共同制定了兼具科学性与实用性的硬核评测标准。

该体系聚焦具身世界模型这一核心领域，打造了涵盖 16 大核心指标、3 大真实应用任务的全方位综合测试场景，全面考核模型的感知精度、物理理解、空间认知、动作预测及实际落地适配能力，实现对具身智能核心技术的全方位、深层次检验，而非单一维度的能力比拼。

2. 参赛阵容鼎盛：全球巨头与顶尖机构同台竞技

得益于其权威的评测标准与行业影响力，全球顶尖具身世界模型研发团队均主动参与评测，首批参评阵容涵盖国际科技巨头、顶尖学术机构，包括：谷歌、英伟达、阿里、字节、智谱、智元、极佳视界、清华大学、斯坦福大学、北京大学、香港大学、普林斯顿大学等。

此次共有全球顶尖 14 款参赛模型同台竞技，覆盖通用视频生成衍生模型、机器人专用模型等所有主流技术路线，真正形成「全球顶级玩家齐聚」的格局，榜单结果不仅是各模型能力的直观排名，更成为行业技术研发、方向布局的重要「风向标」，引领具身智能领域的创新发展。

3. 评测硬核：16 项指标 + 3 大任务，直击「真干活」的核心需求

WorldArena 的评测体系围绕「具身实用」设计，聚焦「真能干活」：

视频质量 6 大评估维度示意图：视觉质量、运动质量、内容一致性、物理贴合度、3D 精度、可控性，每个维度都有明确的优劣判断标准

6 大核心维度涵盖视觉质量、运动质量、内容一致性、物理贴合度（Physics Adherence）、3D 准确性（3D Accuracy）、可控性，细分为 16 项量化指标，每一项都对应机器人实际应用的痛点；

具身任务评估体系概览：通过数据引擎、策略评估、动作规划三大任务，全面测试模型的实战能力

3 大具身任务（数据引擎、策略评估、动作规划）模拟模型的真实使用场景，直接考核「生成的内容能不能训练机器人」、「模拟的环境能不能测试策略」、「规划的动作能不能完成任务」；

70 位专业标注者对 3500 个视频进行主观评估，确保结果既符合技术标准，又贴近人类对「实用」的直觉判断。

现有世界模型基准与 WorldArena 的评测维度对比：

该表从视频质量 6 个子维度、具身任务 3 大核心角色及人类评估维度，全面对比了主流评测基准与 WorldArena 的覆盖情况，直观体现了 WorldArena 在具身任务评测上的独家优势，是其成为具身世界模型专属评测金标准的核心依据。

这种「技术指标 + 实用任务 + 人类校验」的三重考核，让 WorldArena 的排名不只是「分数高低」，更是模型实际应用价值的直接体现。

Ctrl-World 四大具身维度登顶

斩获具身任务能力全球第一

14 款世界模型在视频质量三大维度（视觉质量、运动质量、内容一致性）的各项指标评分表：

Ctrl-World 在主体一致性全球第一（0.8411）

14 款世界模型物理贴合度、3D 准确性及可控性评分：

Ctrl-World 在轨迹准确性（0.4766）、深度准确性（0.9300）等核心指标上的领先地位，其中轨迹准确性（0.4766）位列全球第一

1. 主体一致性全球第一（0.8411）：筑牢具身任务落地的基础

Ctrl-World 以 0.8411 的得分拿下该指标全球第一。这一指标用于衡量视频中生成物体的身份、外观与形态在时序维度的稳定程度，Ctrl-World 的领先表现，使其生成的机器人操作视频能最大程度规避物体位置漂移、形态形变或身份混淆等问题，为机器人作业提供了高保真的「数字孪生」交互对象。

图中展示了 WorldArena 基准中主体一致性（Subject Consistency）的高低分案例对比，直观说明 Ctrl-World 以 0.8411 位列全球第一的技术优势：

高分案例（90.07）：在「adjust bottle」任务中，瓶子在机械臂交互全过程中保持形状、颜色、标识及位置的时序稳定，无漂移或形变，体现高保真「数字孪生」特性；低分案例（1.242）：同场景下瓶子出现严重几何变形与身份特征丢失，产生视觉噪声，直接影响机器人策略训练的可靠性。

2. 轨迹精度全球第一（0.4766 ）：动作精准度媲美真实物理轨迹

轨迹准确性（Trajectory Accuracy）衡量机械臂运动轨迹与真实物理轨迹的对齐度，是机器人动作规划的核心基础。Ctrl-World 以 0.4766 的绝对优势位列全球第一，意味着其生成的机械臂运动轨迹与真实世界物理运动几乎完全吻合，为机器人提供了可信赖的「数字孪生」动作模板。

图中展示了 WorldArena 基准中轨迹准确性（Trajectory Accuracy）的高低分案例对比，直观说明 Ctrl-World 以 0.4766 位列全球第一的技术优势：

高分案例（92.95）：在「move can pot」任务中，机械臂运动轨迹（红色路径线）与真实物理轨迹（GT）高度吻合，动作精准连贯，符合物理运动规律；低分案例（8.64）：同场景下轨迹出现显著偏离，伴随异常跳跃和不连贯动作，无法复现真实物理运动。

3. 深度准确性全球第一梯队（0.9300 ）：3D 空间认知遥遥领先

在 3D 准确性维度的深度准确性（Depth Accuracy）指标上，Ctrl-World 以 0.9300（与第一位差距仅 0.0012）属全球第一梯队，展现了对三维空间结构的精准把握。这一能力直接决定机器人在抓取、堆叠、插入等精密操作中的成功率，避免因「空间感知偏差」导致的抓空、碰撞等失误。

该图展示了 WorldArena 基准中深度准确性（Depth Accuracy）高低分案例对比，直观说明 Ctrl-World 以 0.9300 全球第一梯队技术优势：

高分案例（深度准确性 91.58 ）：在「stack blocks three」与「stack bowls two」任务中，生成深度图与真实场景（GT）高度一致，物体空间位置稳定、透视关系合理，机械臂与物体保持正确的空间分离与物理接触，体现精准的三维空间结构认知；低分案例（深度准确性 59.07）：同场景下出现机械臂与物体异常融合（穿透）、严重几何失真、鬼影模糊及阴影缺失，空间完整性崩塌。

4. 策略评估一致性全球第一（Pearson r=0.986）：虚拟测试 = 真实测试

在最具实用价值的策略评估（Policy Evaluator）任务中，Ctrl-World 与真实物理模拟器（RoboTwin 2.0）的评估结果相关性高达 0.986，近乎完美复刻真实环境动态。这意味着开发者可直接用 Ctrl-World 测试机器人策略，无需搭建昂贵的真实物理环境，大幅降低研发成本。

世界模型与物理模拟器的策略评估结果相关性：

Ctrl-World 的 Pearson r=0.986，近乎完美复刻真实环境评估结果，远高于英伟达 Cosmos-Predict 2.5 的 0.483，印证了其作为虚拟仿真环境的可靠性。

从指标高分到任务成功：

解码 Ctrl-World 的「实力转化」

Ctrl-World 在物理贴合度、3D 准确性及可控性等维度的全面领先，并非仅仅是实验室里的数字游戏，而是直接决定了其作为「机器人大脑」的实用价值。WorldArena 的评测数据清晰揭示了这种转化关系：

1. 高保真策略评估：虚拟测试即真实测试

在 Policy Evaluator 任务中，Ctrl-World 与 RoboTwin 物理模拟器的评估相关性高达 0.986，这意味着在 Ctrl-World 中测试的机器人策略性能，与在真实物理环境中测试的结果几乎无差异。相比之下，Cosmos-Predict 2.5 的相关性仅为 0.483。这一差距的背后的技术逻辑在于：Ctrl-World 通过显式动作建模（Action-Conditioned）架构，将机械臂关节角度、末端执行器位姿等低层物理参数直接作为生成条件，强制模型学习「执行动作 A→产生状态 B」的因果物理链，而非仅仅根据文字描述「猜测」动作。

2. 动作规划成功率：物理准确性直接决定任务成败

在 Action Planner 任务中，虽然当前所有世界模型的绝对成功率仍有提升空间，但 Ctrl-World 的物理准确性优势为其奠定了最可靠的基础。在闭环动作执行任务中，物理贴合度和轨迹精度的高低直接决定了机械臂能否完成「调整瓶子」、「点击铃铛」等操作。Ctrl-World 的轨迹精度（0.4766）和深度准确性（0.9300）确保了生成的动作序列在真实机器人上执行时，能够精准到达目标位置并维持物理稳定的交互，避免了因「空间感知偏差」导致的抓空、碰撞等操作失误。

3. 合成数据的有效性：从「能生成」到「能训练」

在 Data Engine 任务中，Ctrl-World 生成数据的物理合理性确保了其可用于训练真实策略。原论文指出，许多模型生成的合成数据虽然视觉上清晰，但因缺乏物理一致性，训练出的策略在真实环境中完全失效（「virtual data training, real world failure」）。而 Ctrl-World 通过嵌入物理引擎约束的训练方式，确保生成的视频不仅「看起来对」，更「物理上对」，使其合成的视频 - 动作序列真正具备训练价值。

Ctrl-World 的「制胜密码」

1. 动作条件化（Action-Conditioned）架构

与 Genie Envisioner、GigaWorld 等文本条件化模型不同，Ctrl-World 采用显式动作建模，直接将机器人动作参数（关节扭矩、夹爪开合度）注入生成过程。原论文明确指出：「explicit action modeling plays a critical role in producing physically plausible interactions」（显式动作建模对产生物理合理交互至关重要）。这使其能够精确模拟接触力反馈、惯性传递等物理现象，从根本上避免了文本模型常见的「物体穿透机械臂」、「隔空吸附」等错误。

2. 物理引擎约束嵌入

Ctrl-World 在训练过程中嵌入物理引擎约束，将牛顿力学定律「内化」为生成过程的硬约束。不同于单纯依赖像素统计规律的通用视频模型，Ctrl-World 通过物理引擎监督，强制生成内容遵守质量、摩擦、碰撞守恒律。这正是其策略评估相关性达到 0.986 的核心原因 —— 生成过程受物理规律约束，模拟的环境动态与真实物理模拟器的误差极小。

3. 多视图联合与视频预测模型

针对 Depth Accuracy 第一梯队成绩，Ctrl-World 融合多视图联合预测与视频预测模型，不仅预测 RGB 像素，更隐式建模深度图与点云结构，利用多视角数据训练空间认知能力，使其在处理「堆叠积木」等需要精确深度准确性的任务时，成功率超仅使用单目视频训练的模型。

从「生成好看」到「真能干活」

世界模型进入新阶段

清华陈建宇团队联合斯坦福 Chelsea Finn 团队研发的 Ctrl-World 在 WorldArena 拿下「具身任务第一、视频生成综合第二」的佳绩，核心在于其精准把握了具身世界模型的本质 ——「以物理规律为根，以空间认知为骨，以功能 utility 为魂」。随着更多模型加入评测、更多场景被纳入体系，WorldArena 将持续推动具身世界模型向「更懂物理、更有空间感、更能干活」的方向发展，加速机器人自主智能的落地进程。

WorldArena 相关资源

项目主页：http://world-arena.ai 论文地址：http://arxiv.org/abs/2602.08971 GitHub 开源：https://github.com/tsinghua-fib-lab/WorldArena 评测榜单：https://huggingface.co/spaces/WorldArena/WorldArena