具身智能人形机器人

Humanoid Robots Hit a Turning Point as Their Brains Catch Up

TRI CEO Gill Pratt称人形机器人当前拐点主要来自AI能力提升，而非机械形态突破。

IEEE Spectrum - Robotics2026年4月2日69 分钟阅读英文

Humanoid Robots Hit a Turning Point as Their Brains Catch Up

为什么重要

这篇 IEEE Spectrum 访谈以 2012 年 DARPA Robotics Challenge（DRC）为起点，回看人形机器人从灾害救援竞赛到当前商业化热潮的演进。DRC 由 Gill Pratt 设计，目标是像 2004 年 DARPA Grand Challenge、2007 年 DARPA Urban Challenge 推动自动驾驶一样，推动机器人能力成为现实。DRC 产生了 Boston Dynamics Atlas 等早期人形机器人成果，也留下了大量失败与摔倒画面。约十年后，Pratt 已任 Toyota Research Institute（TRI）CEO，他认为行业确实到了一个重要阶段，但真正变化不在“身体”，而在“脑”。 Pratt 的核心判断是：过去机器人机构能力很强，但智能不足，无法把硬件潜力转化为实用能力；近几年 AI 革命改变了这一点。与 DRC 当年“半自主、半遥操作、远程监督”的模式不同，现在机器人可以通过示范学习任务，不再完全依赖人工写代码。TRI 两年前提出 diffusion policy，随后发展出 Pratt 所称的 large behavior models（LBMs）：用一个模型训练多任务，并观察到每增加一个任务，能帮助其他任务、降低达到同等性能所需的训练数据量。他认为从视觉输入到动作输出的行为空间扩散方法，是近期机器人能力提升的重要路径。但文章最重要的警示在于数据与认知能力瓶颈。Pratt 借用大模型争论，认同 Yann LeCun 关于 world models 的观点：当前 LLM 和许多机器人学习方法更像“系统一”——快速、反射式、基于模式匹配；真正缺失的是“系统二”——慢速推理、想象、规划和世界模型。TRI 的 diffusion policy 和 LBM 被他称为非常强的系统一进步，但机器人并没有真正想象、思考和规划，只是在“看到这样就这样行动”。他用“挤水球”比喻给系统一打补丁的局限：修好一个问题，另一个地方又冒出来，总体性能并不会因此显著改善。在人形机器人形态上，Pratt 给出相对克制的判断。人类世界确实为人体构造了大量物理可供性，因此仿人形态有利于使用现有环境，也有利于模仿学习；腿在跨越障碍、快速找到支撑点方面有优势。但他也直言，在工厂这种平坦、适合轮式移动的平台环境里，过度关注双足机器人“很奇怪”。这对物流仓储和制造场景尤其关键：应先从环境约束、任务经济性和可靠性出发选择形态，而不是被资本和媒体叙事牵引。 Pratt 还把机器人商业化与自动驾驶类比。十年前 TRI 成立时，自动驾驶被认为近在眼前；十年后，他认为自动驾驶的剩余问题更多是硬件成本、保险、支持和经济性等商业问题。自动驾驶车辆遇到双排停车等情况时，可以呼叫远程人员作出需要系统二判断的决策。他认为其他机器人也可以采用类似机制：大部分时间自主工作，偶尔向人类寻求帮助。

新进展

Pratt 认为当前人形机器人拐点来自 AI“脑”而非机械“身”，diffusion policy 和 LBM 提升了示范学习能力，但本质仍属于系统一模式匹配。
当前机器人学习缺少 world model 和“系统二”推理，靠给系统一打补丁难以根治泛化、规划和异常处理问题。
对仓储和工厂场景的启示是：平坦环境天然适合轮式平台，盲目追逐双足人形可能牺牲经济性与可靠性。
机器人商业化可借鉴自动驾驶：大部分任务自主执行，复杂异常由远程人类监督介入，形成可落地的人机闭环。
人形形态在利用人类环境和模仿学习上有优势，但腿并不总是最实用的移动方式。

人形机器人toyota research institutegill prattdarpa robotics challengediffusion policylarge behavior modelsworld modelboston dynamics atlas