VIT，最早是谷歌提出来的，一开始是2D VIT，在全球的研究机构和科技公司共同

VIT，最早是谷歌提出来的，一开始是2D VIT，在全球的研究机构和科技公司共同推动下，3D VIT 或时空VIT的变体被相继被提出。但是，这当中问题很多：3D VIT当然是个好东西，但是现实是很骨感的，再好的东西你也得啃得动，再漂亮的美女你也得追得上。问题不在于车端堆多大的算力让它跑起来，而是云端训练是训练需要的数据量几何级暴增、对云端训练算力要求会高出至少10倍甚至百倍，基模型的预训练会非常非常难。激光雷达的那个说法，更是无法认同，线束少探测不到小物体你怎么对这些小物体做精确的几何标定？其实人眼看到的也是2D画面，投射到视网膜上的图像，本质上是二维的、倒置的画面，由大脑完成3D建模，所以我们在驾校学开车，本质也是通过2D视网膜图像，来学习和掌握真实3D物理世界，所以不能说看2D视频学开车有什么问题，让模型理解3D物理世界也不是只有3D VIT一条技术路线，现有的各种方案一样可以能让模型自己能在车端正确重构3D物理世界。3D VIT是有它的优点、也有后续的巨大潜力，但关键在于3D VIT训练难度，从训练数据、训练质量、训练算力的要求看，先不说训练数据和质量问题，在当下、特别在当下算力极其吃紧的国内，是有钱都难买到足够的算力，所以效费比太低，而且训练得不好效果还不如现行的各种方案。反正到年中，看落地的效果吧，指不定年底或是明年又会提出更先进的理念出来。

智能辅助驾驶

云霞资讯网

VIT，最早是谷歌提出来的，一开始是2D VIT，在全球的研究机构和科技公司共同

热门分类