关于所谓VLA,记住一点:人开车本身就主要靠直觉和本能,包括所谓“场景理解”,比如盲区减速,也属于老司机的直觉和本能反应,人可以压根不需要推理。
需要识别文字和长时推理的场景,只占很小的一部分。所以,“L”(语言能力)就应该只占端到端模型的一小部分。这是一个基本的判断,大家可以等时间去验证。
关于所谓VLA,记住一点:人开车本身就主要靠直觉和本能,包括所谓“场景理解”,比如盲区减速,也属于老司机的直觉和本能反应,人可以压根不需要推理。
需要识别文字和长时推理的场景,只占很小的一部分。所以,“L”(语言能力)就应该只占端到端模型的一小部分。这是一个基本的判断,大家可以等时间去验证。
作者最新文章
热门分类
汽车TOP
汽车最新文章