云霞资讯网

“十五五”新质生产力引擎:具身智能的理论根基与实践图景

2025 年,中国科技创新史册迎来里程碑一刻 ——“具身智能” 首次被写入《政府工作报告》,标志着人工智能从屏幕里的虚拟

2025 年,中国科技创新史册迎来里程碑一刻 ——“具身智能” 首次被写入《政府工作报告》,标志着人工智能从屏幕里的虚拟算法向实体智能的革命性跨越。作为 “十五五” 规划明确的未来产业新增长点,这一政策信号迅速激活全产业链创新活力,从国家实验室的前沿攻关到智能制造的场景落地,具身智能正以政策为帆、技术为桨,驶入规模化发展的黄金航道。

恰在此时,深耕物联网与智能系统研究数十年的清华大学教授,新晋中国科学院院士刘云浩,其长期聚焦的 “智能体与物理世界交互” 研究,与当下政策导向、行业热潮形成精准同频,为这场科技革命注入了权威学术注脚。

从 ChatGPT 以惊艳之姿闯入大众视野,到 DeepSeek 惊艳全球,人们不断惊叹于大语言模型的强大能力;紧接着,2025 蛇年春晚舞台上,机器人扭秧歌的精彩表演又掀起一阵科技狂潮。

当下,人类已经完成了 “人工智能初级阶段” 的原始积累,正式进入向 “更高阶段” 迈进的时代。在人工智能诞生之初,其目标或许是实现具身智能 —— 这种智能体不仅拥有物理形态,还能与物理世界进行互动。

具身智能这条路径,能通向通用人工智能(AGI)吗?逻辑学、统计学、神经科学和计算机科学等领域的研究者分别从符号主义、联结主义和行为主义三个纲领出发研究人工智能。

打造通用人工智能是否需要第四种纲领?还是依靠这三者的融合就能解决?

这些问题现在给出确定的答案还为时尚早,但知古而论今,在刘云浩所著的《具身智能:人工智能的下一个浪潮》中,以当前比较火热的具身智能话题为引,讨论人工智能的过去、现在和将来。

内容来源|部分摘自中信出版社图书书籍《具身智能:人工智能的下一个浪潮》

01大模型如何 “接地”

近两年,大语言模型的热潮席卷了整个技术界,也迅速与具身智能领域紧密结合。有人形象地说,引入大模型就像是给机器安装了一个新的大脑,似乎只要将其简单地嵌入,就能赋予机器全新的生命力。先来说 “加 buff(增益)” 的地方。

其次,大模型能够提供一些解决问题的“常识”,或者说高层次的语义指导。

例如,如果我们问它:“如何把大象装进冰箱?”大模型可能会输出:“拉开冰箱门,把大象放进去,关上冰箱门。”我们姑且不论这个方案的可行性如何,大模型确实是能够将解决问题的完整过程拆解成多个子步骤并且给出一个执行方案的。因此,大模型具备成为优秀的行动规划器的潜力。

最后,多模态大模型,例如预训练的视觉—语言模型(Visual-Language Models,VLMs),能够为智能机器进行多模态感知和认知提供更为通用的选择。

例如,CLIP 能够将视觉信息和文本映射到统一的表征空间,使得机器能够直接以视觉数据作为输入。3D-VLA 提出了一种新的三维视觉—语言—动作模型,它通过引入一个生成世界模型来无缝连接三维感知、推理和动作。与现有的基于 2D 输入的 VLA 模型不同,3D-VLA 更加贴近现实世界的 3D 物理环境。

当然,除了生成自然语言,大模型在未来也是能够生成可用的代码的。Code as Policies 通过训练大语言模型来为机器编写策略代码。给定自然语言的指令,大模型生成一段代码,然后这段代码就可以在智能机器上运行,持续接收传感器的输入并输出行动指令。

有研究证明,这种生成代码的方式比直接生成行动规划要更好。VoxPoser 也是使用了大模型来生成代码,然后这个代码与前面提到的视觉—语言模型进行交互,为后续的动作规划提供信息。

02 大模型当前遇到的挑战

大模型的一个显著缺陷就是缺乏现实世界中的经验。还是刚才说的,如果我们给大模型一个“把大象装进冰箱”的任务,它可能会正儿八经地生成一段逻辑上合理的指导,却不会思考这样的步骤是否真的能实现。

为解决这一问题,谷歌的一项研究 SayCan 提出使用预训练技能,为模型提供现实世界的知识基础,这样大语言模型输出的内容就被约束在这些预训练技能对应的范畴内。

这种方法有点类似于我们为大模型准备好了很多能够执行的 API(应用程序编程接口),然后大模型通过调用它们完成行动。在这种配置中,智能机器充当模型的“手和眼”,执行具体任务,而大语言模型则负责提供关于任务的高级语义指导。

GLiDE 尝试在大模型的语义和智能机器在物理世界的行动轨迹之间建立关联,这个过程使用了人类的演示数据,这样系统就能够将自然语言的任务指令翻译为机器的具体行动序列。

刚才讨论的一些方法很多都是利用其他应用领域预训练好的大模型,因此需要进行额外的“接地”操作,即从大模型输出的符号(语言、代码等)转换到物理世界的行动。而谷歌的 RT 系列大模型,通过端到端的训练一步到位输出行动序列。

在 RT—1 中,谷歌科学家首次提出一个模型类,叫作 Robotics Transformer(RT)。RT—1 的设计思路秉承了大模型“力大砖飞”的理念,也就是说,模型容量大,可以吸收大量的各类数据,也可高效地泛化。

之后的 RT—2 似乎不满足之前的训练力度,于是将基于互联网规模数据训练的一个视觉—语言模型直接整合到端到端机器人控制中,进一步提升模型的泛化能力。

而 2024 年新推出的 RT—H 开始走分层路线,提出行动层级(action hierarchy)的概念,将复杂任务分解成简单的语言指令,然后将这些指令转化为机器人的行动,以提高任务执行的准确性。

例如,以“盖上开心果罐的盖子”这一任务和场景图像作为输入,RT—H 会利用视觉—语言模型预测语言动作,如向前移动手臂和向右旋转手臂,然后根据这些语言动作,输出具体的机器行动。这个过程允许人类的干预,人 类的修正也能够帮助机器进行学习。

大模型作为目前人工智能领域的一个方法论,必将成为具身智能发展的重要推动力。我们有理由相信,不久的将来,具身智能体将具备执行通用任务的能力和强大的学习能力,它们将能够更深入地理解我们的世界,并以前所未有的方式参与其中。

至少,在回答“如何把大象装进冰箱”这一问题时,一个“充满人性”的具身智能体可能会这样回答:“首先,我们需要确认大象是否有意愿被关进冰箱里;其次,考虑到大象的体量,我们可能需要一个特制的大型冰箱;最后,确保在关上冰箱门之后,大象拥有足够的空间和舒适的环境。”

03 从理论照进现实:洞见具身智能的落地密码

刘云浩院士在《具身智能:人工智能的下一个浪潮》中反复强调:“具身智能的核心不是追求单一模型的性能巅峰,而是实现智能体与物理世界的高效交互闭环 —— 这需要大模型的‘思考能力’与实体的‘行动能力’深度耦合。”2025 年下半年的产业实践,恰好成为这本书理论框架的生动注脚,其中大模型技术的演进尤其凸显了书中观点的前瞻性。

书中对 “大模型接地难题” 的剖析,在近期技术迭代中得到精准回应。刘云浩指出,离身智能的局限在于 “被困于数据囚笼,缺乏现实体感”,而具身化的关键是让模型 “既懂逻辑又知物理”。

部分大模型团队推出的混合推理体系,正是对这一理念的实践:通过 “深度思考” 模式解析具身任务中的复杂逻辑(如工业设备故障诊断的因果链),再以 “轻量响应” 模式适配实体执行的低延迟需求,这种设计与书中 “推理深度需匹配落地场景” 的论断高度契合。更值得关注的是,书中重点讲解的 VLA(视觉 - 语言 - 动作)融合技术,已在智能座舱场景中实现突破 —— 通过将语言指令、视觉感知与机械控制纳入统一模型,使车载智能体不仅能理解 “打开空调” 的语义,更能结合乘客体温、室外环境自动调节风速,这正是书籍所强调的 “多模态协同是具身智能的核心能力”。

对于 “具身智能多路径发展” 的预判,产业实践同样给出了呼应。刘云浩在书中明确提出,人形机器人只是具身智能的实现路径之一,“大模型 + 专用实体 + 强化学习”“万物智联的智能涌现” 同样具备巨大潜力。这一观点在能源、制造领域的落地中得到印证:在油田勘探场景中,搭载轻量化模型的传感器阵列通过持续采集地层数据,实现油藏分布的动态预测,成为 “无实体机器人” 的具身应用典范;而汽车行业通过蒸馏模型的车控功能模块,将决策响应速度压缩至秒级以内,践行了书中 “实体特性决定模型形态” 的核心主张。这些案例共同指向书籍的核心结论:具身智能的终极价值不在于技术形态的统一,而在于对物理世界的有效干预。

书中对技术挑战的坦诚直面,更让产业实践少走了弯路。刘云浩在书中列出具身智能的三大瓶颈:仿真到现实的迁移鸿沟、多模态对齐的稳定性、数据隐私与交互安全。当前行业的探索正围绕这些问题展开:部分团队借鉴书中提及的 “人类演示数据辅助对齐” 方法,将机械臂操作失误率降低 40%;而针对隐私难题,基于联邦学习的模型训练方案,实现了工业数据 “可用不可见” 的安全交互,这与书籍 “技术进步需兼顾安全伦理” 的警示形成呼应。

从理论框架到产业实践,《具身智能:人工智能的下一个浪潮》始终扮演着 “导航图” 的角色。它既不像技术手册那样局限于代码细节,也不似科幻作品那般脱离现实,而是如刘云浩院士所言:“希望搭建一座桥梁,让研究者看见落地可能,让实践者读懂技术本质。”

当 2025 年政策东风吹拂具身智能赛道,这本著作的价值愈发清晰 —— 它不仅记录了人工智能从虚拟走向实体的关键转折,更提供了理解这场技术革命的底层逻辑。正如新时代发展趋势所昭示的,具身智能的浪潮里,理论与实践的共鸣,终将成就智能时代的全新可能。