顶级大佬杨立昆的世界模型能搞成么? 你让 ChatGPT 写一首关于重力的诗,它写得比大多数人都好。但你问它:一个玻璃杯从桌上滑落,接下来会发生什么?它只能从训练文本里拼凑答案,并不是真正「看见」了杯子在坠落。 一只猫都比它强。猫看到杯子滑到桌沿,会本能地预判它要掉下去。这种对物理世界的直觉,现在的 AI 完全没有。 图灵奖得主、前 Meta AI 负责人杨立昆(Yann LeCun)认为,这就是当今 AI 最大的短板。他在 2025 年底离开 Meta,创办了一家叫 AMI 的公司,专门干一件事:教 AI 理解真实的物理世界。 今年 3 月,AMI 拿到了 10.3 亿美元种子轮融资,估值 35 亿美元。投资方包括英伟达、淡马锡、三星,还有贝佐斯的个人基金。这是欧洲创业公司有史以来最大的种子轮。 钱这么多,他到底要做什么? 答案是两个字:世界模型(World Model)。 简单说,现在的大语言模型——ChatGPT、Gemini、Claude 这些——本质上是「文字接龙」。它们读了海量文本,学会了词与词之间的统计规律,所以能生成流畅的文章。但它们从来没有「看过」真实世界,不知道苹果掉下来会砸到脚,不知道推一扇门它会转动。 世界模型要解决的,就是这个问题。它的训练数据不是文本,而是来自物理世界的传感器信号——视频、图像、3D 数据。它要学会的不是下一个词是什么,而是下一个时刻,这个世界会变成什么样。 打个比方:大语言模型像一个读了一万本书但从没出过门的人。世界模型则像一个从小在真实环境中摸爬滚打长大的孩子。 杨立昆团队用的技术叫 JEPA(联合嵌入预测架构)。传统的视频预测 AI 会试图猜测画面里每一个像素的变化,计算量巨大,效果也一般。JEPA 不一样,它不去预测像素,而是在一个更抽象的层面上,学习事物运动和变化的规律。就像人类看到一个球被抛出,不需要精确计算空气阻力和每一帧画面,就能大致判断球会落在哪里。 这种能力一旦成熟,最直接的应用场景是机器人和工业自动化。现在的工业机器人大多是「死板」的,只能在预设好的路径上做固定动作。如果零件的位置偏了一厘米,或者传送带上突然多了一个障碍物,它就不知道怎么办了。装上世界模型的机器人,理论上能像人一样,看到环境的变化,预判接下来会发生什么,然后灵活调整自己的动作。 AMI 的第一个合作伙伴是医疗 AI 公司 Nabla,计划探索世界模型在医疗场景中的应用。杨立昆团队也在布局可穿戴设备和工业流程控制方向。不过,公司 CEO 勒布伦坦言,至少还需要一年的研发,才能拿出第一个真正落地的产品。 这件事之所以值得关注,是因为它指向了 AI 发展中一个根本性的问题:语言能力不等于智能。今天的大模型越来越会说话,但它们对物理世界的理解,可能还不如一个两岁的孩子。孩子知道积木搭高了会倒,知道水会从高处往低处流。这些常识,不是靠读书能学来的,而是靠和真实世界打交道积累的。 杨立昆说过一句话:「真正的智能不是从语言开始的,而是从世界开始的。」 这是一条和大语言模型完全不同的路线。至于能不能走通,没有人知道。但 10 亿美元砸下去,说明不少人愿意赌一把。