云霞资讯网

在绝大多数情况下,关于纯视觉 VS 多传感器融合路线,我已经不再专门搬运/分析,

在绝大多数情况下,关于纯视觉 VS 多传感器融合路线,我已经不再专门搬运/分析,因为过去几年相关的微博发了太多。但今天这条是个例外,照例先放原文再发我自己的理解:

「训练 AI 的核心天花板之一是「长数据上下文」。对于大语言模型,你可以将这个窗口扩展到近乎无限,且依然能获得高质量的轨迹采样;但在真实世界(自动驾驶)中,情况并非如此。

核心问题在于可压缩性。由于压缩率的限制,数据上下文越长,占用的存储空间就越大。而且,数据越是有趣(有价值),就越难压缩。比如,在平淡无奇的高速上行驶是高度可压缩的,但一些罕见的极端场景就非常难压缩。

所以,即便你的硬件拥有极强的感知性能,经过压缩之后的动态范围才是你真正拥有的感知能力。

这个限制同样适用于生成模型,因为模型本身就是一种压缩形式。即便你强行以双精度运行,也改变不了它们是在对「量化后的观测值」进行超分辨率处理这个事实。

所以,你集成的感知模态越多——特别是那些量子分布本质上不同的模态(任何形式的感知本质上都是量子过程,把不确定性量化为确定的数值)——在给定压缩和量化预算的限制下,它们保留的信息就越少。

人类的眼睛之所以设计成现在这样是有原因的:不是说我们无法在细胞中加入紫外线或近红外感知能力(这是可以实现的),而是为了在神经路径中实现最高的压缩率的同时,还能为「长上下文推理」提供最佳的信噪比。

相比之下,昆虫有着极高的感测灵敏度,但他们的上下文窗口非常小——它们无法进行推理。

智能,似乎就是语义压缩与关联。」

———

一句话总结:强大的 AI 不在于它能接收多少原始数据,而在于它能把多长、多乱的数据,取其精华地压缩成有意义的逻辑。

否则,再多传感器都是「差生文具多」。