具身智能BOSTON DYNAMICS

Boston Dynamics and Google DeepMind Teach Spot to Reason

Boston Dynamics 的四足机器人 Spot 接入 Google DeepMind 的 Gemini Robotics-ER 1.6，用于增强工业巡检中的具身推理能力

IEEE Spectrum - Robotics2026年4月14日44 分钟阅读英文

Boston Dynamics and Google DeepMind Teach Spot to Reason

为什么重要

Boston Dynamics 宣布，其四足机器人 Spot 已搭载 Google DeepMind 的 Gemini Robotics-ER 1.6。这是一个高层级具身推理模型，目标不是展示家庭场景炫技，而是强化 Spot 已被商业验证的核心应用——工业设施巡检。文章指出，Boston Dynamics 是少数将腿式机器人实现一定规模商业部署的公司，目前已有数千台在现场运行，这使其成为具身 AI 从研究走向真实场景的重要样本。此次升级的关键能力集中在“让机器人更会理解任务与环境”。Spot 现在可自主寻找危险碎片或液体泄漏，读取复杂仪表、液位视镜等，并在需要时调用视觉-语言-动作模型等工具来判断周围情况。Boston Dynamics Spot 业务副总裁兼总经理 Marco da Silva 表示，仪表读取和更可靠的任务推理，将使 Spot 能够完全自主地观察、理解并应对真实世界挑战。对工业巡检而言，这类能力瞄准的是大量未被传感器充分覆盖、但仍可能造成事故的“非仪表化风险”。文章也强调，“reasoning”和“understanding”在机器人语境中仍需被谨慎定义。Google DeepMind 机器人负责人 Carolina Parada 认为，衡量机器人理解能力的基准，是系统是否能像人类一样回答。文中用 Spot 执行“回收客厅里的易拉罐”举例：机器人能完成抓取，但横向夹持可能导致残液洒出；人类会基于生活经验避免这种动作，而机器人尚缺乏足够世界知识。Parada 提到 Gemini Robotics-ER 1.6 会从安全角度推理，例如让机器人端水时不要放在桌边，并通过 ASIMOV benchmark 跟踪大量自然语言“不可做”案例；不过当前 Spot 版本尚未把这些语义安全模型用于操作，未来版本才计划增强安全持物推理。技术瓶颈在于模型与物理世界接口仍有断层。Gemini Robotics-ER 1.6 的新功能包括成功检测，可结合多摄像头角度判断 Spot 是否成功抓取物体；但文章指出，机器人行业已有触觉传感、力传感等成熟抓取检测方式，而该模型当前“strictly vision only”。Parada 解释，互联网上有大量视觉数据，比如如何拿起笔，但几乎没有同等规模的触觉数据；如果有足够触觉数据，模型也可学习。使用这些新巡检能力的 Spot 客户需向 Boston Dynamics 分享数据，这将成为后续模型训练数据来源之一。商业落地层面，Boston Dynamics 采取谨慎策略。da Silva 表示，新 DeepMind 能力会先通过小范围客户 beta 项目推出，只主动宣传有信心可用的功能。他还给出一个现场阈值判断：真实工业现场不要求完美，但机器人若误报太多会被忽视；他们发现超过 80% 的水平才不会令人厌烦，低于这个水平就像“狼来了”。文章最后认为，Spot 的规模化商业平台地位为 Gemini Robotics-ER 1.6 提供了罕见真实数据闭环，这些经验未来可能迁移到其他具身平台，包括 Boston Dynamics 的 Atlas；尽管 Atlas 未必会成为下一个工业巡检机器人，但该合作有助于推动更安全、可靠的真实世界机器人。

新进展

Spot 已有数千台商业部署，是腿式机器人中少见的规模化平台，因此与 DeepMind 的合作更接近真实落地而非实验室演示。
Gemini Robotics-ER 1.6 强化巡检场景中的危险碎片、泄漏、复杂仪表和液位视镜识别，瞄准非仪表化工业风险。
当前模型仍主要依赖视觉，未融合触觉和力传感等物理反馈，暴露具身 AI 在数据来源和多模态训练上的关键短板。
Boston Dynamics 给出现场可用性阈值：超过 80% 的水平才不会令人厌烦，否则误报会让操作员忽视机器人报警。
客户使用新能力需共享数据，说明商用机器人平台正在形成真实场景数据闭环。

boston dynamicsgoogle deepmindspotgemini robotics-er 1.6工业巡检视觉-语言-动作模型asimov benchmark