云霞资讯网

VIT,最早是谷歌提出来的,一开始是2D VIT,在全球的研究机构和科技公司共同

VIT,最早是谷歌提出来的,一开始是2D VIT,在全球的研究机构和科技公司共同推动下,3D VIT 或 时空VIT的变体被相继被提出。但是,这当中问题很多:3D VIT当然是个好东西,但是现实是很骨感的,再好的东西你也得啃得动,再漂亮的美女你也得追得上。问题不在于车端堆多大的算力让它跑起来,而是云端训练是训练需要的数据量几何级暴增、对云端训练算力要求会高出至少10倍甚至百倍,基模型的预训练会非常非常难。激光雷达的那个说法,更是无法认同,线束少探测不到小物体你怎么对这些小物体做精确的几何标定?其实人眼看到的也是2D画面,投射到视网膜上的图像,本质上是二维的、倒置的画面,由大脑完成3D建模,所以我们在驾校学开车,本质也是通过2D视网膜图像,来学习和掌握真实3D物理世界,所以不能说看2D视频学开车有什么问题,让模型理解3D物理世界也不是只有3D VIT一条技术路线,现有的各种方案一样可以能让模型自己能在车端正确重构3D物理世界。3D VIT是有它的优点、也有后续的巨大潜力,但关键在于3D VIT训练难度,从训练数据、训练质量、训练算力的要求看,先不说训练数据和质量问题,在当下、特别在当下算力极其吃紧的国内,是有钱都难买到足够的算力,所以效费比太低,而且训练得不好效果还不如现行的各种方案。反正到年中,看落地的效果吧,指不定年底或是明年又会提出更先进的理念出来。

智能辅助驾驶