
李想:如果以具身智能理解整个AI系统,你会发现可以改变,以及急切需要改...
电动知识小妹
2025-11-27 00:18:48
李想:如果以具身智能理解整个AI系统,你会发现可以改变,以及急切需要改变的实在太多了。
首先是感知,基于现有的感知模型和端侧的算力,现在的3D BEV、OCC占用网络、2D ViT,有效的感知距离(而非理论上最大)只有100多米,远远不如人类的眼睛。如果升级成人眼工作原理相似的3D ViT,有效距离可以扩大2-3倍,今天我们辅助驾驶可能50%以上的常见问题,自然就解决了。
3D ViT不仅限于自动驾驶的领域,在车外和车主的主动交互与服务,在车内与家人的主动交互和服务,也就变成了可能。这需要感知模型的研究和研发的重大突破,还必须有M100这样为具身智能定制设计的芯片和编译器团队高效率的配合才可以实现。
其次是模型,有了3D ViT才有了真正的对物理世界的理解,VLA模型中的VL才可以更好的对于物理世界的感知和理解,人类的数据才可以更高效率的被用于训练,世界模型生成的数据才可以更好的去完善训练。
现有最好的计算平台,一个4B MoE的模型运行帧率是有10Hz,而执行系统是60Hz,如果模型运行的帧率可以快2-3倍,现在辅助驾驶的一些舒适性的问题、反应迟钝的问题都可以有效的解决。这同样需要对传统的GPU架构和算力进行深度的改造和定制,以及专有的操作系统。M100芯片就是为了解决具身智能这些本质的问题而研发的。
最后是本体,人类的刹车、转向的最快响应速度在450毫秒左右,目前自动驾驶从感知到执行的完整链路在550毫秒左右,线控体系可以把整个链路的响应速度提升到350毫秒,这大概可以把事故率下降50%以上。
0
阅读:0