前华为“天才少年”彭志辉发布首个通用具身基座大模型,能让机器人更好地完成家务活吗?

科技风韵 3天前 阅读数 0 #科技

机器人真的能像人类一样做家务吗?

一个来自前华为“天才少年”的团队,正在努力让这个梦想成为现实。

他们是谁?

他们又带来了怎样的突破?

故事的主人公是彭志辉,一位90后科技新星。

2018年,他从电子科技大学研究生毕业,先后在OPPO研究院AI实验室和华为工作,从事AI芯片和算法研究。

2020年,他以最高档年薪加入华为“天才少年计划”,一时名声大噪。

他并不满足于此。

2022年底,彭志辉离开华为,开始新的征程。

2023年2月,他与伙伴联合创立了智元机器人,致力于研发通用人形机器人。

仅仅几个月后,他们的首款具身智能机器人“远征A1”惊艳亮相。

2024年1月,智元机器人与北京大学成立联合实验室,共同攻克具身智能技术难题。

同年12月,智元机器人开启了通用机器人商用量产,并在短短一个月后迎来了第1000台通用具身机器人下线。

在高速发展的背后,高瓴创投、鼎晖投资、红杉中国、比亚迪、软通动力等知名投资机构也纷纷加入,为智元机器人注入了强大的动力。

智元机器人,这家总部位于上海张江科学城的公司,正在以AI+机器人的融合创新,努力打造世界级的智能机器人。

而他们最新的成果,便是今天发布的首个通用具身基座大模型——Genie Operator-1,简称GO-1。

GO-1的发布,伴随着一段精彩的演示视频。

视频中,机器人展现了令人惊叹的技能:递送水杯、制作餐点、迎接外宾……这些曾经被认为是人类专属的活动,如今机器人也能胜任。

更重要的是,GO-1并非简单的程序设定,而是通过学习人类视频,自主掌握这些技能。

视频的还展示了仿真数据采集和大规模真机数据采集的过程,揭示了GO-1背后的技术支撑。

GO-1的核心技术,便是智元机器人提出的Vision-Language-Latent-Action(ViLLA)架构。

为了提升策略的泛化能力,ViLLA架构巧妙地利用了高质量的AgiBot World数据集和互联网大规模异构视频数据。

AgiBot World是智元机器人联合上海人工智能实验室等单位开源的百万真机数据集项目,涵盖了超过100种真实场景,其中40%为家居场景,20%为工业场景,收录了80余种人类生活必备技能。

尽管AgiBot World等带动作标签的真机数据量已经相当庞大,但相较于互联网规模的数据集,仍然有限。

为了弥补这一差距,ViLLA架构采用了Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,从而将外部动作知识转移到通用操作任务中。

GO-1的性能表现也相当亮眼。

相比已有模型,GO-1的平均成功率提高了32%,尤其在“倒水”“清理桌面”“补充饮料”等任务中表现突出,为未来机器人更好地服务于家庭生活带来了希望。

GO-1的强大之处,还在于其快速适应新任务的能力,以及对不同机器人本体的兼容性。

这意味着,GO-1并非局限于特定类型的机器人或特定场景,而是具备更广泛的应用潜力。

智元机器人相信,GO-1将加速具身智能的普及,推动机器人从依赖特定任务的工具,向具备通用智能的自主体演进。

在GO-1发布之前,彭志辉就在微博上进行了预告,引发了广泛关注。

短短一天时间,他的微博阅读数超过10万,视频累计播放量超过1050万,足见人们对机器人技术发展的期待。

GO-1的出现,无疑为机器人产业带来了新的可能性。

它能否真正改变我们的生活,让机器人成为我们家庭中不可或缺的帮手?

让我们拭目以待。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

科技风韵

科技风韵

科技风韵