云霞育儿网

在具身智能领域,如何让机器人在任务指引和实时观测的基础上规划未来动作,是一项备受

在具身智能领域,如何让机器人在任务指引和实时观测的基础上规划未来动作,是一项备受关注的核心课题。

这一问题的复杂性主要源于以下两大挑战:

1、模态对齐:需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。

2、数据稀缺:缺乏大规模、多模态且带有动作标签的数据集。

最近,一些研究尝试将视频生成与动作规划相结合,利用无动作标签的海量视频数据进行训练,取得了一定的进展。

然而,这些方法大多仅将现有通用视频生成模型简单应用于具身场景,未充分考虑具身任务的特殊需求。

智元的算法团队推出了EnerVerse架构。

是以自回归扩散模型(autoregressive diffusion)为核心,通过生成未来具身空间来引导动作规划。

团队设计了一种稀疏记忆(Sparse Memory)机制,用于维持长程任务的上下文逻辑,并提出了自由锚定视角(Free Anchor View, FAV),灵活地表达4D空间。

实验水平,EnerVerse拥有很强的4D生成能力,并在动作规划任务中达到了当前最优(SOTA)水平。