在网上看到一个非常反智的说法是VLA因为有语言信息所以比世界模型输入的信息更多所以能力更强。
先不说世界模型理论上什么都可以输入输出吧,对于驾驶这个行为而言,我认为语言根本不是必须要进行显式输入和输出的东西。
文字输入完全可以直接从视频或者音频提取后直接给到模型,文字输出完全是给驾驶员提供情绪价值的东西(L2还可以增强驾驶员使用系统的信心,到了L3以上驾驶员脱眼以后谁看这些输出来的文字呢?),所以搞个LLM的意义其实着实不如一个驾驶专用的世界模型大。(当然现在的所谓VLA和世界模型车上跑的和ppt上写的肯定不是一个东西)
当然如果算力资源无限大这两个东西最后能实现的效果可能差不多,但当资源有限的时候泛用LLM的效果肯定不如专用模型的效果。