【世界模型】 太阳底下没有新鲜事最近,越来越多团队开始高频提到“世界模型(World Model)”。 从云端的大规模并行仿真,到车端的轨迹输出模型,再到某些感知网络也自称“世界模型”。 概念被不断重复定义,甚至被过度营销,导致“世界模型”正在失去它本来的含义。这篇文章,我想探讨下,世界模型到底在解决什么问题,其他模型有没有本质区别?一句话:本质上,我们想获得一个全知全能的世界模拟器,用经验来提前预知会发生什么。从物理,到数学,到化学等等学科,都在追求对世界运行的规律。我们从牛顿最经典的理论出发,苹果为什么会掉落? 牛顿提出了地心引力的概念,有了这个概念之后,我们就能预测,空中有一个物体,他会因为重力加速度下落,并且,每个时间点,下落到什么程度,我们也能预测出来。这就是抽象的规律表达。那在我们没有学习过地心引力的概念的时候,我们会无法预知苹果下落的位置吗? 其实似乎也可以,因为我们眼睛见过很多次苹果掉落了,我们会有直觉。这就是从视觉监督获得的对环境的预测。因为太阳底下没有新鲜事,空中的物体一定会掉落。所以OpenAI 的Sora 认为自己看到足够多的视频之后能够做出来世界模型,确实也是这样。 我们能看到雨水的飞溅,可以看到镜像,可以看到逼真的光影,通过一个条件可以预测出来下一个结果。Lifeifei 的Worldlabs 认为自己能通过3D 的表征来获得一些更加精确的物理结果。不难看到,世界模型的本质其实就是预测精准的未来世界,它能回答:“如果我采取动作 A/ 获得了A输入,世界未来会如何变化?”而普通感知/预测模型只做 “输入→输出” ,没有 action-conditioned prediction。那么我们很容易得出结论:- 车道线检测不是世界模型- BEV 不是世界模型- 行人预测也不是世界模型(通常没条件在车的动作上)- 大部分自动驾驶网络都只是 feedforward pipeline,不具备“模拟未来”的能力世界模型有什么用呢?直接用来做决策如果从第一性原理出发,我们执行一个拿水杯的动作,我们是否是因为我预估了所有的方案,发现只有一个角度拿水杯,水杯才不会倒,我才能喝到这杯水呢?似乎是,似乎也不是。因为婴儿是通过学习别人的状态学会这个动作的,可以很快给出结果(模仿学习),只有在非常刁钻没有见过的杯子摆放角度,才会去推演,犹豫怎么拿(世界模型推演)所以当很多公司讲自己是世界模型时,其实目前说的是他们可以用这种方式来验证自己的输出轨迹是否合理,但是这种方式要求的数据量比模仿学习要求的数据量要大非常多。用来做云端模拟仿真把世界模型当作一个参数化的物理模拟器,能够支持梯度传导,能够支持状态转移,相当于一个过程完全可控,系统状态完全透明的环境,在这样的环境里面对其他以感知为输入,动作为输出的agent进行训练。这就可以作为目前强化学习训练的基础,毕竟真实环境的强化学习基本上是难以完成的。而关于模拟仿真的传感器的真实性,还有3D 表征的准确度,都有非常大的挑战。世界模型的探索并没有完全结束,也并不是已经完成验证的一场变革。OpenAI 代表的纯视觉像素推理,Lifeifei Worldlabs 提出的具有空间表征的Marble,Lecun JEPA 用抽象思想去推理世界。本质上都是努力给智能体一个可供推演未来的内部世界。太阳底下没有新鲜事,苹果正在掉落。
