在机场最适合静心读一些之前收藏起来的文章,比如李飞飞教授这篇关于空间智能的长文。话说空间智能Spatial Intelligence这个命名真好,之前很多人说世界模型,就很容易有歧义,这说的是可以模拟出一个世界的模型?(像Minecraft)还是可以生成栩栩如生的视频的模型?(印象中Sora是第一个用上世界模型这个概念的)亦或是可以跳过文字理解物理规律的模型?“空间智能”就很明确是第三个,这也是我们在自动驾驶或辅助驾驶上真正需要的。这概念明确之后,空间智能相比VLA的优势就显而易见了。我们人类在开车时并不知道前方各个物体的准确距离和相对速度,也不会有“因为…所以…”这样的思考过程,完全就是凭借我们的空间智能准确地做出反应。因为像VLA那样的话就太慢了,都没想清楚就撞车了但这也不是说空间智能就是比VLA更好更先进的,这两种技术其实是可以互补的。比老司机开车时的防御性驾驶技巧,那就是VLA式的,掌握更多信息,通过想象做未来推演,提前指定预防性动作。所以我觉得自动驾驶接下来应该是把空间智能(真·车端世界模型)和VLA结合,可能最快在明年初大家就可以见到智驾的能力又一次飞跃
