Boston Dynamics and Google DeepMind Teach Spot to Reason
Boston Dynamics 的四足机器人 Spot 接入 Google DeepMind 的 Gemini Robotics-ER 1.6,用于增强工业巡检中的具身推理能力

为什么重要
Boston Dynamics 宣布,其四足机器人 Spot 已搭载 Google DeepMind 的 Gemini Robotics-ER 1.6。这是一个高层级具身推理模型,目标不是展示家庭场景炫技,而是强化 Spot 已被商业验证的核心应用——工业设施巡检。文章指出,Boston Dynamics 是少数将腿式机器人实现一定规模商业部署的公司,目前已有数千台在现场运行,这使其成为具身 AI 从研究走向真实场景的重要样本。 此次升级的关键能力集中在“让机器人更会理解任务与环境”。Spot 现在可自主寻找危险碎片或液体泄漏,读取复杂仪表、液位视镜等,并在需要时调用视觉-语言-动作模型等工具来判断周围情况。Boston Dynamics Spot 业务副总裁兼总经理 Marco da Silva 表示,仪表读取和更可靠的任务推理,将使 Spot 能够完全自主地观察、理解并应对真实世界挑战。对工业巡检而言,这类能力瞄准的是大量未被传感器充分覆盖、但仍可能造成事故的“非仪表化风险”。 文章也强调,“reasoning”和“understanding”在机器人语境中仍需被谨慎定义。Google DeepMind 机器人负责人 Carolina Parada 认为,衡量机器人理解能力的基准,是系统是否能像人类一样回答。文中用 Spot 执行“回收客厅里的易拉罐”举例:机器人能完成抓取,但横向夹持可能导致残液洒出;人类会基于生活经验避免这种动作,而机器人尚缺乏足够世界知识。Parada 提到 Gemini Robotics-ER 1.6 会从安全角度推理,例如让机器人端水时不要放在桌边,并通过 ASIMOV benchmark 跟踪大量自然语言“不可做”案例;不过当前 Spot 版本尚未把这些语义安全模型用于操作,未来版本才计划增强安全持物推理。 技术瓶颈在于模型与物理世界接口仍有断层。Gemini Robotics-ER 1.6 的新功能包括成功检测,可结合多摄像头角度判断 Spot 是否成功抓取物体;但文章指出,机器人行业已有触觉传感、力传感等成熟抓取检测方式,而该模型当前“strictly vision only”。Parada 解释,互联网上有大量视觉数据,比如如何拿起笔,但几乎没有同等规模的触觉数据;如果有足够触觉数据,模型也可学习。使用这些新巡检能力的 Spot 客户需向 Boston Dynamics 分享数据,这将成为后续模型训练数据来源之一。 商业落地层面,Boston Dynamics 采取谨慎策略。da Silva 表示,新 DeepMind 能力会先通过小范围客户 beta 项目推出,只主动宣传有信心可用的功能。他还给出一个现场阈值判断:真实工业现场不要求完美,但机器人若误报太多会被忽视;他们发现超过 80% 的水平才不会令人厌烦,低于这个水平就像“狼来了”。文章最后认为,Spot 的规模化商业平台地位为 Gemini Robotics-ER 1.6 提供了罕见真实数据闭环,这些经验未来可能迁移到其他具身平台,包括 Boston Dynamics 的 Atlas;尽管 Atlas 未必会成为下一个工业巡检机器人,但该合作有助于推动更安全、可靠的真实世界机器人。
新进展
- Spot 已有数千台商业部署,是腿式机器人中少见的规模化平台,因此与 DeepMind 的合作更接近真实落地而非实验室演示。
- Gemini Robotics-ER 1.6 强化巡检场景中的危险碎片、泄漏、复杂仪表和液位视镜识别,瞄准非仪表化工业风险。
- 当前模型仍主要依赖视觉,未融合触觉和力传感等物理反馈,暴露具身 AI 在数据来源和多模态训练上的关键短板。
- Boston Dynamics 给出现场可用性阈值:超过 80% 的水平才不会令人厌烦,否则误报会让操作员忽视机器人报警。
- 客户使用新能力需共享数据,说明商用机器人平台正在形成真实场景数据闭环。