返回
具身智能人形机器人

Humanoid Robots Hit a Turning Point as Their Brains Catch Up

TRI CEO Gill Pratt称人形机器人当前拐点主要来自AI能力提升,而非机械形态突破。

IEEE Spectrum - Robotics69 分钟阅读英文
阅读原文
Humanoid Robots Hit a Turning Point as Their Brains Catch Up

为什么重要

这篇 IEEE Spectrum 访谈以 2012 年 DARPA Robotics Challenge(DRC)为起点,回看人形机器人从灾害救援竞赛到当前商业化热潮的演进。DRC 由 Gill Pratt 设计,目标是像 2004 年 DARPA Grand Challenge、2007 年 DARPA Urban Challenge 推动自动驾驶一样,推动机器人能力成为现实。DRC 产生了 Boston Dynamics Atlas 等早期人形机器人成果,也留下了大量失败与摔倒画面。约十年后,Pratt 已任 Toyota Research Institute(TRI)CEO,他认为行业确实到了一个重要阶段,但真正变化不在“身体”,而在“脑”。 Pratt 的核心判断是:过去机器人机构能力很强,但智能不足,无法把硬件潜力转化为实用能力;近几年 AI 革命改变了这一点。与 DRC 当年“半自主、半遥操作、远程监督”的模式不同,现在机器人可以通过示范学习任务,不再完全依赖人工写代码。TRI 两年前提出 diffusion policy,随后发展出 Pratt 所称的 large behavior models(LBMs):用一个模型训练多任务,并观察到每增加一个任务,能帮助其他任务、降低达到同等性能所需的训练数据量。他认为从视觉输入到动作输出的行为空间扩散方法,是近期机器人能力提升的重要路径。 但文章最重要的警示在于数据与认知能力瓶颈。Pratt 借用大模型争论,认同 Yann LeCun 关于 world models 的观点:当前 LLM 和许多机器人学习方法更像“系统一”——快速、反射式、基于模式匹配;真正缺失的是“系统二”——慢速推理、想象、规划和世界模型。TRI 的 diffusion policy 和 LBM 被他称为非常强的系统一进步,但机器人并没有真正想象、思考和规划,只是在“看到这样就这样行动”。他用“挤水球”比喻给系统一打补丁的局限:修好一个问题,另一个地方又冒出来,总体性能并不会因此显著改善。 在人形机器人形态上,Pratt 给出相对克制的判断。人类世界确实为人体构造了大量物理可供性,因此仿人形态有利于使用现有环境,也有利于模仿学习;腿在跨越障碍、快速找到支撑点方面有优势。但他也直言,在工厂这种平坦、适合轮式移动的平台环境里,过度关注双足机器人“很奇怪”。这对物流仓储和制造场景尤其关键:应先从环境约束、任务经济性和可靠性出发选择形态,而不是被资本和媒体叙事牵引。 Pratt 还把机器人商业化与自动驾驶类比。十年前 TRI 成立时,自动驾驶被认为近在眼前;十年后,他认为自动驾驶的剩余问题更多是硬件成本、保险、支持和经济性等商业问题。自动驾驶车辆遇到双排停车等情况时,可以呼叫远程人员作出需要系统二判断的决策。他认为其他机器人也可以采用类似机制:大部分时间自主工作,偶尔向人类寻求帮助。

新进展

  • Pratt 认为当前人形机器人拐点来自 AI“脑”而非机械“身”,diffusion policy 和 LBM 提升了示范学习能力,但本质仍属于系统一模式匹配。
  • 当前机器人学习缺少 world model 和“系统二”推理,靠给系统一打补丁难以根治泛化、规划和异常处理问题。
  • 对仓储和工厂场景的启示是:平坦环境天然适合轮式平台,盲目追逐双足人形可能牺牲经济性与可靠性。
  • 机器人商业化可借鉴自动驾驶:大部分任务自主执行,复杂异常由远程人类监督介入,形成可落地的人机闭环。
  • 人形形态在利用人类环境和模仿学习上有优势,但腿并不总是最实用的移动方式。
人形机器人toyota research institutegill prattdarpa robotics challengediffusion policylarge behavior modelsworld modelboston dynamics atlas