元鉴
返回中文阅读流

Google DeepMind Blog

推出 Gemini 2.5 Computer Use 模型

该计算机使用模型基于 Gemini 2.5 Pro 能力构建,可通过 API 预览,旨在驱动能与用户界面交互的智能体。

中文内容

已翻译official company source英文原文2025-10-23

推出 Gemini 2.5 Computer Use 模型

2025年10月7日

·

现已通过 API 提供预览版,我们的 Computer Use 模型是一款基于 Gemini 2.5 Pro 能力构建的专用模型,旨在驱动可与用户界面交互的智能体。

Google DeepMind
Read AI-generated summary

总体概述

Google 正通过 Gemini API 发布 Gemini 2.5 Computer Use 模型,使开发者能够构建可与用户界面交互的智能体。该模型在网页与移动端控制基准测试中表现优于其他模型,且延迟更低。您现在即可在 Google AI Studio 和 Vertex AI 上访问该模型以开始构建,并在开发者论坛中分享反馈。

Summaries were generated by Google AI. Generative AI is experimental.
Gemini Computer Use

今年早些时候,我们曾提及将通过 Gemini API 向开发者提供计算机操作(computer use)能力。今天,我们正式发布 Gemini 2.5 Computer Use 模型。这是我们基于 Gemini 2.5 Pro 的视觉理解与推理能力构建的全新专用模型,能够赋能可与用户界面(UI)交互的智能体。该模型在多项网页与移动端控制基准测试中表现优于主流竞品,且均具备更低的延迟。开发者可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 访问这些能力。

尽管 AI 模型可通过结构化 API 与软件交互,但许多数字任务仍需直接与图形用户界面进行交互,例如填写并提交表单。为完成此类任务,智能体必须像人类一样浏览网页和应用程序:通过点击、键入和滚动。能够原生填写表单、操控下拉菜单和筛选器等交互元素,以及在登录状态下执行操作,是构建强大通用智能体的关键下一步。

工作原理

该模型的核心能力通过 Gemini API 中新增的 `computer_use` 工具对外提供,并应在循环结构中运行。该工具的输入包括用户请求、环境截图以及近期操作的历史记录。输入还可用于指定是否从完整的 UI 操作支持列表中排除某些功能,或指定需额外包含的自定义功能。

Gemini 2.5 Computer Use 模型工作流程

Diagram of AI agent loop: Initial task leads to a screenshot/context, which is sent to the Model, which returns a response to the computer environment to execute an action.

随后,模型分析这些输入并生成响应,该响应通常是一个函数调用,代表点击或输入等UI操作之一。此响应还可能包含请求最终用户确认的信息,对于某些操作(如进行购买),该确认是必需的。随后,客户端代码执行接收到的操作。

执行该操作后,GUI的新截图与当前URL将作为函数响应返回给Computer Use模型,从而重新启动循环。该迭代过程将持续进行,直至任务完成、发生错误,或因安全响应或用户决定而终止交互。

Gemini 2.5 Computer Use 模型主要面向网页浏览器进行了优化,但在移动端 UI 控制任务中同样展现出巨大潜力。目前尚未针对桌面操作系统级控制进行优化。

查看下方的几个演示,了解模型的实际运行效果(此处以3倍速播放)。

提示:“从 https://tinyurl.com/pet-care-signup 获取所有拥有加州居住地址的宠物的详细信息,并将它们作为客户添加至我位于 https://pet-luxe-spa.web.app/ 的水疗中心 CRM 系统中。然后,与专家 Anima Lavar 预约 10 月 10 日早上 8 点之后的任意时间进行复诊。就诊原因与其申请的治疗项目一致。”

提示词:“我的艺术社团在展会前进行了任务头脑风暴。看板目前较为混乱,我需要你协助将任务整理到我创建的分类中。请访问 sticky-note-jam.web.app,确保便签已清晰放置在正确的分区内。若未归位,请将其拖拽至相应位置。”

性能表现

Gemini 2.5 Computer Use 模型在多项网页与移动端控制基准测试中展现出强劲的性能。下表包含的结果来源于自行报告的数据、由 Browserbase 执行的评估以及我们自行进行的评估。评估详情可在 Gemini 2.5 Computer Use 评估信息及 Browserbase 的博客文章中查阅。除非另有说明,所示分数均针对通过 API 提供的计算机使用工具。

Gemini 2.5 Computer Use 在多项基准测试中表现优于领先的同类方案

Benchmark performance table: Gemini 2.5 Computer Use leads in Online-Mind2Web, WebVoyager, and AndroidWorld benchmarks.

该模型在浏览器控制任务中实现了领先的水准与最低的延迟,其性能已通过 Online-Mind2Web 的 Browserbase 评测框架得到验证。

Gemini 2.5 Computer Use 在保持低延迟的同时实现了高精度。

Latency vs. Quality scatterplot: Gemini 2.5 Computer Use is lowest in latency and highest in accuracy (70%+ accuracy, ∼225 sec latency).

我们的安全处理方法

我们相信,构建能够惠及所有人的智能体的唯一途径,是从一开始就秉持负责任的态度。控制计算机的 AI 智能体会带来独特的风险,包括用户的故意滥用、模型的意外行为,以及网络环境中的提示词注入与诈骗。因此,审慎实施安全护栏至关重要。

我们已将安全特性直接训练至模型中,以应对这三大关键风险(详见 Gemini 2.5 Computer Use System Card)。

此外,我们还为开发者提供了安全控制机制,使开发者能够防止模型自动完成潜在的高风险或有害行为。此类行为的示例包括破坏系统完整性、危及安全性、绕过 CAPTCHAs 或控制医疗设备。这些控制机制:

  • 逐步骤安全服务:一种独立于模型之外、在推理阶段运行的安全服务,用于在模型提议的每个操作执行前进行评估。
  • 系统指令:开发者可进一步设定,智能体在执行特定类型的高风险操作前,必须拒绝执行或请求用户确认。(详见文档示例。)

有关安全措施与最佳实践的更多开发者建议,请参阅我们的文档。尽管这些保障措施旨在降低风险,我们仍强烈建议所有开发者在正式发布前对系统进行充分测试。

早期测试者如何使用它

Google 团队已将该模型投入生产环境,用于 UI 测试等场景,可显著提升软件开发速度。该模型的不同版本也已为 Project Mariner、Firebase Testing Agent 以及 Search 中的 AI Mode 里的部分智能体功能提供驱动支持。

我们早期访问计划的用户也在测试该模型,用于驱动个人助手、工作流自动化和UI测试,并取得了显著成效。用他们自己的话说:

快速入门

即日起,该模型已开放公开预览,可通过 Google AI Studio 和 Vertex AI 上的 Gemini API 进行访问。

  • 立即试用:在由 Browserbase 托管的演示环境中。
  • 开始构建:深入查阅我们的参考与文档(企业用途请参阅 Vertex AI 文档),了解如何在本地使用 Playwright 或在云端虚拟机中使用 Browserbase 构建您自己的智能体循环。
  • 加入社区:我们非常期待看到您的开发成果。请在我们的开发者论坛分享反馈,并协助我们规划产品路线图。
POSTED IN:
  • 正文:Google DeepMind
  • Gemini 模型
  • AI 产品

原文标题

Introducing the Gemini 2.5 Computer Use model