波士顿动力公司的机器狗现在可以利用谷歌的人工智能读取仪表和温度计读数
#AI新闻焦点 ·2026-04-16 10:20:10
IAICA.com.cn · arstechnica.com · 2026.04.16

像波士顿动力公司(Boston Dynamics)的四足机器人Spot这样的机器人,现在可以在工厂和仓库中巡逻时,准确读取模拟温度计和压力表的数据。这些改进得益于谷歌DeepMind最新的机器人人工智能模型,该模型旨在增强机器人与物理环境交互时的"具身推理"能力。
谷歌DeepMind于4月14日发布的全新Gemini Robotics-ER 1.6模型是一款"高级机器人推理模型",能够规划和执行任务。该模型还具备精确读取复杂仪表等仪器的能力,并可通过透明视窗进行目视检查,从而观察储罐和管道内部——这项性能提升得益于谷歌DeepMind与机器人公司波士顿动力公司持续的合作。
波士顿动力公司对在各种工业设施中测试四足和人形机器人工人抱有浓厚的兴趣,其中包括其母公司现代汽车集团的汽车工厂。该公司研发的机器人"狗"Spot正在接受试验,它被用作机器人巡检员,在工业设施内巡逻,检查各项设备。这类巡检任务需要"复杂的视觉推理能力",才能解读各种仪器上的指针、液位、容器边界、刻度线以及文字信息。
为了处理此类任务,Gemini Robotics-ER 1.6 模型为机器人配备了"智能体视觉"功能,该功能结合了视觉推理和代码执行能力,创建了一个用于检查和处理图像的"视觉草稿板"。这种智能体视觉功能早在 2026 年 1 月就已在谷歌的Gemini 3.0 Flash 模型中引入。
据报道,智能视觉功能将机器人仪器读取任务的性能从老款Gemini Robotics-ER 1.5 型号的23% 提升至新款 Gemini Robotics-ER 1.6 型号的 98%。相比之下,Gemini 3.0 Flash 的准确率仅为 67%。
即使没有智能视觉,Gemini Robotics-ER 1.6 基本型机器人也能在读取仪器方面达到 86% 的准确率。这是因为该模型采用指向视觉图像中不同元素的方法来处理复杂任务,例如计数物品或识别最显著的特征。据称,它还具备改进的"多视图推理"能力,使机器人系统能够利用多个摄像头画面来更好地理解周围环境。
谷歌DeepMind提供的一个性能示例突显了Gemini Robotics-ER 1.6如何在杂乱的图像中正确识别锤子、剪刀、油漆刷、钳子和各种园艺工具的数量。相比之下,较早的Gemini Robotics-ER 1.5型号未能准确计数锤子或油漆刷,完全忽略了剪刀,并且错误地识别出了一个并不存在的手推车。这表明,即使最新型号距离达到人类水平的周围环境理解能力仍有很长的路要走,但它比旧型号的"错觉"问题要少。
谷歌还将Gemini Robotics-ER 1.6描述为其"迄今为止最安全的机器人模型",并称其"在遵守物理安全约束方面能力显著提升"。该模型使机器人能够遵循安全指令,并在处理液体或材料时做出更安全的决策。此外,新模型还能更准确地感知不同场景下对人类造成的伤害风险,例如幼儿将异物插入电源插座的情况。
该模型的实际价值将随着机器人公司和研究人员获得更多实际操作时间来测试其功能而得到检验。迄今为止,机器人最高效、最有生产力的表现形式是作为高度专业化的机器,在工厂装配线上反复执行相同的特定任务,或在仓库通道中执行高度协调和编排的动作。像谷歌这样的公司押注最新的人工智能模型可以帮助机器人成为更自由的"工人",在复杂且控制较少的真实环境中工作——但这同时也带来了更大的风险,即一旦出现故障,机器人可能会对人类造成伤害。