元鉴
返回中文阅读流

Google DeepMind Blog

Gemini Robotics On-Device 将 AI 带到本地机器人设备

我们推出一款高效的端侧机器人模型,具备通用灵巧操作能力,并能快速适应任务。

中文内容

已翻译official company source英文原文2025-06-24
2025年6月24日模型

Gemini Robotics On-Device 将 AI 带到本地机器人设备

正文:Carolina Parada

今年3月,我们推出了 Gemini Robotics,这是我们最先进的 VLA(视觉-语言-动作)模型,将 Gemini 2.0 的多模态推理和现实世界理解能力带入物理世界。

今天,我们推出 Gemini Robotics On-Device,这是我们最强大的 VLA 模型,并经过优化,可在机器人设备本地运行。Gemini Robotics On-Device 展现出强大的通用灵巧操作能力和任务泛化能力,并针对在机器人本体上高效运行进行了优化。

由于该模型独立于数据网络运行,因此有助于对延迟敏感的应用,并能确保在连接不稳定或无连接环境中的稳健性。

我们还发布了 Gemini Robotics SDK,帮助开发者轻松在其任务和环境中评估 Gemini Robotics On-Device,在我们的 MuJoCo 物理模拟器中测试模型,并用少至50到100次演示将其快速适配到新领域。开发者可通过注册我们的可信测试者计划来访问 SDK。

模型能力与性能

Gemini Robotics On-Device 是面向双臂机器人的机器人基础模型,设计上只需最少的计算资源。它建立在 Gemini Robotics 的任务泛化和灵巧操作能力之上,并且:

  • 专为灵巧操作的快速实验而设计。
  • 可通过微调适应新任务以提升性能。
  • 经过优化,可在本地运行并实现低延迟推理。

Gemini Robotics On-Device 在广泛测试场景中实现了强大的视觉、语义和行为泛化,能够遵循自然语言指令,并完成拉开袋子拉链或叠衣服等高灵巧度任务——所有这些都直接在机器人上运行完成。

Your browser does not support the video tag. Your browser does not support the video tag.

在我们的评估中,On-Device 模式在完全本地运行的同时展现出强大的泛化性能。

评估 Gemini Robotics On-Device 泛化性能的图表,并与我们的旗舰 Gemini Robotics 模型及此前最佳端侧模型进行比较。

在更具挑战性的分布外任务和复杂多步骤指令上,Gemini Robotics On-Device 也优于其他端侧替代方案。对于希望在这些场景中获得最先进结果、且不受端侧限制影响的开发者,我们也提供 Gemini Robotics 模型。

评估 Gemini Robotics On-Device 指令遵循性能的图表,并与我们的旗舰 Gemini Robotics 模型及此前最佳端侧模型进行比较。

如需了解更多评估信息,请阅读我们的 Gemini Robotics 技术报告。

可适应新任务,跨不同机器人形态泛化

Gemini Robotics On-Device 是我们首个开放用于微调的 VLA 模型。虽然许多任务可开箱即用,但开发者也可以选择对模型进行适配,以便为其应用获得更好性能。我们的模型可用少至50到100次演示快速适应新任务——这表明该端侧模型能够很好地将其基础知识泛化到新任务。

在这里,我们展示了 Gemini Robotics On-Device 在涉及对新模型进行微调的任务中,如何优于当前最佳端侧 VLA。我们在七项不同难度的灵巧操作任务上测试了该模型,包括给午餐盒拉上拉链、抽取卡片和倒沙拉酱。

展示 Gemini Robotics On-Device 在少于100个样本下任务适应性能的图表。

我们还将 Gemini Robotics On-Device 模型进一步适配到不同机器人形态。虽然我们的模型仅针对 ALOHA 机器人进行训练,但我们能够进一步将其适配到双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。

在双臂 Franka 上,该模型可执行通用指令遵循,包括处理此前未见过的物体和场景,完成叠连衣裙等灵巧任务,或执行需要精度和灵巧性的工业皮带装配任务。

在 Apollo 人形机器人上,我们将模型适配到一种显著不同的形态。同一个通用模型能够遵循自然语言指令,并以通用方式操控不同物体,包括此前未见过的物体。

Your browser does not support the video tag. Your browser does not support the video tag.

负责任开发与安全

我们正在按照 AI Principles 开发所有 Gemini Robotics 模型,并采用涵盖语义安全和物理安全的整体安全方法。

在实践中,我们使用 Live API 捕捉语义和内容安全,并将模型与低层级的安全关键控制器连接以执行动作。我们建议在我们最近开发的语义安全基准上评估端到端系统,并在各个层级开展红队测试,以暴露模型的安全漏洞。

我们的 Responsible Development & Innovation(ReDI)团队持续分析所有 Gemini Robotics 模型的现实影响并提供建议,寻找最大化其社会影响、最小化风险的方法。随后,我们的 Responsibility & Safety Council(RSC)会审查这些评估,提供反馈并整合到模型开发中,以进一步最大化收益并最小化风险。

为更深入了解 Gemini Robotics On-Device 的使用和安全特征并收集反馈,我们最初将其发布给一组选定的可信测试者。

加速机器人领域创新

Gemini Robotics On-Device 标志着在使强大的机器人模型更易获取、更具适应性方面迈出了一步——我们的端侧解决方案将帮助机器人社区应对重要的延迟和连接挑战。

Gemini Robotics SDK 将通过允许开发者根据自身具体需求适配模型,进一步加速创新。通过我们的可信测试者计划注册,以获取模型和 SDK 访问权限。

随着我们继续探索将 AI 带入物理世界的未来,我们期待看到机器人社区将用这些新工具构建出什么。

致谢

我们衷心感谢 Abbas Abdolmaleki、Saminda Abeyruwan、Joshua Ainslie、Jean-Baptiste Alayrac、Montserrat Gonzalez Arenas、Travis Armstrong、Maria Attarian、Ashwin Balakrishna、Yanan Bao、Clara Barbu、Catarina Barros、Robert Baruch、Nathan Batchelor、Maria Bauza、Lucas Beyer、Jeff Bingham、Michael Bloesch、Michiel Blokzijl、Steven Bohez、Konstantinos Bousmalis、Demetra Brady、Philemon Brakel、Anthony Brohan、Thomas Buschmann、Arunkumar Byravan、Kendra Byrne、Serkan Cabi、Ken Caluwaerts、Federico Casarini、Christine Chan、Oscar Chang、Jose Enrique Chen、Xi Chen、Huizhong Chen、Hao-Tien Lewis Chiang、Krzysztof Choromanski、Adrian Collister、Kieran Connell、David D'Ambrosio、Sudeep Dasari、Todor Davchev、Coline Devin、Norman Di Palo、Tianli Ding、Adil Dostmohamed、Anca Dragan、Yilun Du、Debidatta Dwibedi、Michael Elabd、Tom Erez、Claudio Fanta 的贡献、建议和支持。

我们还感谢为该项目进行数据收集和机器人评估的运营与支持人员。

相关文章

Gemini Robotics 1.5 将 AI 智能体带入物理世界

2025年9月模型

Gemini Robotics 将 AI 带入物理世界

2025年3月模型

原文标题

Gemini Robotics On-Device brings AI to local robotic devices