中文内容
Gemini Robotics 1.5 将 AI 智能体带入物理世界
正文:Carolina Parada
今年早些时候,我们在将 Gemini 的多模态理解能力带入物理世界方面取得了惊人的进展,首先推出了 Gemini Robotics 系列模型。
今天,我们正朝着推进智能化、真正通用的机器人再迈出一步。我们推出了两个能够通过高级思考解锁智能体体验的模型:
- Gemini Robotics 1.5——我们迄今最强大的视觉-语言-动作(VLA)模型,可将视觉信息和指令转化为机器人的运动指令,以执行任务。该模型会先思考再行动,并展示其过程,帮助机器人更透明地评估并完成复杂任务。它还能够跨具身形态学习,从而加速技能学习。
- Gemini Robotics-ER 1.5——我们迄今最强大的视觉-语言模型(VLM),能够对物理世界进行推理,原生调用数字工具,并创建详细的多步骤计划来完成任务。该模型目前在空间理解基准测试中达到最先进的性能。
这些进展将帮助开发者构建能力更强、用途更广的机器人,使其能够主动理解周围环境,并以通用方式完成复杂的多步骤任务。
从今天起,我们将通过 Google AI Studio 中的 Gemini API 向开发者开放 Gemini Robotics-ER 1.5。Gemini Robotics 1.5 目前面向部分合作伙伴开放。请在 Developer blog 上阅读更多关于使用下一代物理智能体进行构建的信息。
Gemini Robotics 1.5:为物理任务解锁智能体体验
大多数日常任务都需要上下文信息,并且需要多个步骤才能完成,这使得它们对当今的机器人而言出了名地具有挑战性。
例如,如果有人问一个机器人:“根据我所在的位置,你能把这些物品分到正确的堆肥、回收和垃圾桶里吗?”它就需要在互联网上搜索相关的本地回收指南,查看它面前的物品,并根据这些规则弄清楚如何分类——然后完成把它们全部放好的所有步骤。因此,为了帮助机器人完成这类复杂的多步骤任务,我们设计了两个在智能体框架中协同工作的模型。
我们的具身推理模型 Gemini Robotics-ER 1.5 像高级大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和逻辑决策。它具备最先进的空间理解能力,能够用自然语言交互,估计其成功率和进展,并且可以原生调用 Google Search 等工具来查找信息,或使用任何第三方用户定义函数。
随后,Gemini Robotics-ER 1.5 会为每个步骤向 Gemini Robotics 1.5 提供自然语言指令,后者利用其视觉和语言理解能力直接执行具体动作。Gemini Robotics 1.5 还帮助机器人思考其动作,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思考过程——从而使其决策更加透明。
这两个模型均基于核心 Gemini 模型家族构建,并使用不同数据集进行了微调,以专门适应各自的角色。二者结合后,可提升机器人对更长任务和更多样化环境的泛化能力。
理解其环境
Gemini Robotics-ER 1.5 是首个针对具身推理优化的思考模型。它在学术基准和内部基准上均实现了最先进的性能,其灵感来自我们可信测试者计划中的真实用例。
我们在包括 Embodied Reasoning Question Answering(ERQA)和 Point-Bench 在内的 15 个学术基准上评估了 Gemini Robotics-ER 1.5,衡量该模型在指向、图像问答和视频问答方面的表现。
详见我们的技术报告。


行动前先思考
传统上,视觉-语言-动作模型会将指令或语言计划直接转化为机器人的动作。Gemini Robotics 1.5 不仅仅是翻译指令或计划,现在还可以在采取行动前先进行思考。这意味着它可以用自然语言生成一系列内部推理和分析,以执行需要多个步骤或需要更深入语义理解的任务。
例如,在完成“按颜色整理我的衣物”这样的任务时,下面视频中的机器人会在不同层面进行思考。首先,它理解按颜色分类意味着把白色衣服放进白色筐,把其他颜色的衣服放进黑色筐。然后它会思考要采取的步骤,比如拿起红色毛衣并把它放进黑色筐;也会思考涉及的具体动作,比如把毛衣移近一些,以便更容易拿起。
在这种多层次思考过程中,视觉-语言-动作模型可以决定将较长的任务拆分为更简单、更短的片段,让机器人能够成功执行。这也有助于模型泛化以解决新任务,并在环境发生变化时更加稳健。
跨形态学习
机器人有各种形状和尺寸,并具备不同的感知能力和不同的自由度,这使得将一个机器人学到的动作迁移到另一个机器人变得困难。
Gemini Robotics 1.5 展现出跨不同形态学习的卓越能力。它可以将一个机器人学到的动作迁移到另一个机器人,而无需针对每一种新形态对模型进行专门化。这一突破加速了新行为的学习,帮助机器人变得更智能、更有用。
例如,我们观察到,在训练期间仅向 ALOHA 2 机器人呈现的任务,也能直接在 Apptronik 的人形机器人 Apollo 和双臂 Franka 机器人上运行,反之亦然。
我们如何负责任地推进 AI 与机器人技术
随着我们释放具身 AI 的全部潜力,我们正在主动开发新型安全与对齐方法,以使代理式 AI 机器人能够负责任地部署在人类中心的环境中。
我们的 Responsibility & Safety Council(RSC)和 Responsible Development & Innovation(ReDI)团队与 Robotics 团队合作,确保这些模型的开发符合我们的 AI Principles。
Gemini Robotics 1.5 通过高层次语义推理实施整体安全方法,包括在行动前思考安全问题,通过与现有 Gemini Safety Policies 对齐来确保与人类进行尊重性的对话,并在需要时触发机器人机载的低层级安全子系统(例如用于避免碰撞)。
为指导我们安全地开发 Gemini Robotics 模型,我们还发布了 ASIMOV 基准的升级版。这是一套用于评估和改进语义安全性的综合数据集,具备更好的长尾覆盖、改进的标注、新的安全问题类型以及新的视频模态。
在我们基于 ASIMOV 基准进行的安全评估中,Gemini Robotics-ER 1.5 展现出最先进的性能,其思考能力显著促进了对语义安全性的理解,并更好地遵守物理安全约束。
如需了解更多关于我们安全研究的信息,请阅读我们的技术报告或访问我们的安全网站。
迈向解决物理世界中 AGI 问题的一个里程碑
Gemini Robotics 1.5 标志着在物理世界中解决 AGI 问题的重要里程碑。通过引入智能体能力,我们正超越仅对指令作出反应的模型,打造能够真正推理、规划、主动使用工具并实现泛化的系统。
这是朝着构建能够以智能和灵巧性应对物理世界复杂性的机器人迈出的基础性一步,并最终使其变得更有帮助、更融入我们的生活。
我们很高兴能与更广泛的研究社区继续推进这项工作,也迫不及待地想看到机器人社区将如何使用我们最新的 Gemini Robotics-ER 模型进行构建。
探索 Gemini Robotics 1.5
致谢 本工作由 Gemini Robotics 团队开发:Abbas Abdolmaleki、Saminda Abeyruwan、Joshua Ainslie、Jean-Baptiste Alayrac、Montserrat Gonzalez Arenas、Ashwin Balakrishna、Nathan Batchelor、Alex Bewley、Jeff Bingham、Michael Bloesch、Konstantinos Bousmalis、Philemon Brakel、Anthony Brohan、Thomas Buschmann、Arunkumar Byravan、Serkan Cabi、Ken Caluwaerts、Federico Casarini、Christine Chan、Oscar Chang、London Chappellet-Volpini、Jose Enrique Chen、Xi Chen、Hao-Tien Lewis Chiang、Krzysztof Choromanski、Adrian Collister、David B. D'Ambrosio、Sudeep Dasari、Todor Davchev、Meet Kirankumar Dave、Coline Devin、Norman Di Palo、Tianli Ding、Carl Doersch、Adil Dostmohamed、Yilun Du、Debidatta Dwibedi、Sathish Thoppay Egambaram、Michael Elabd、Tom Erez、Xiaolin Fang、Claudio Fantacci、Cody Fong、Erik Frey、Chuyuan Fu、Ruiqi Gao、Marissa Giustina、Keerthana Gopalakrishnan、Lau
我们还要感谢:Amy Nommeots-Nomm、Ashley Gibb、Bhavya Sukhija、Bryan Gale、Catarina Barros、Christy Koh、Clara Barbu、Demetra Brady、Hiroki Furuta、Jennie Lees、Kendra Byrne、Keran Rong、Kevin Murphy、Kieran Connell、Kuang-Huei Lee、M. Emre Karagozler、Martina Zambelli、Matthew Jackson、Michael Noseworthy、Miguel Lázaro-Gredilla、Mili Sanwalka、Mimi Jasarevic、Nimrod Gileadi、Rebeca Santamaria-Fernandez、Rui Yao、Siobhan Mcloughlin、Sophie Bridgers、Stefano Saliceti、Steven Bohez、Svetlana Grant、Tim Hertweck、Verena Rieser、Yandong Ji。
感谢 Jean-Baptiste Alayrac、Zoubin Ghahramani、Koray Kavukcuoglu 和 Demis Hassabis 对这项工作的领导与支持。我们还要感谢 Google 和 Google DeepMind 内部为这项工作作出贡献的众多团队,包括法务、市场营销、传播、责任与安全委员会、负责任发展与创新、政策、战略与运营,以及我们的业务与企业发展团队。我们要感谢 Robotics 团队中未在上文明确提及的所有成员,感谢他们持续的支持与指导。最后,我们要感谢 Apptronik 团队的支持。