中文内容

已翻译official company source英文原文2025-10-23

推出 Gemini 2.5 Computer Use 模型

2025年10月7日

现已通过 API 提供预览版，我们的 Computer Use 模型是一款基于 Gemini 2.5 Pro 能力构建的专用模型，旨在驱动可与用户界面交互的智能体。

Google DeepMind

Read AI-generated summary

总体概述

Google 正通过 Gemini API 发布 Gemini 2.5 Computer Use 模型，使开发者能够构建可与用户界面交互的智能体。该模型在网页与移动端控制基准测试中表现优于其他模型，且延迟更低。您现在即可在 Google AI Studio 和 Vertex AI 上访问该模型以开始构建，并在开发者论坛中分享反馈。

Summaries were generated by Google AI. Generative AI is experimental.

今年早些时候，我们曾提及将通过 Gemini API 向开发者提供计算机操作（computer use）能力。今天，我们正式发布 Gemini 2.5 Computer Use 模型。这是我们基于 Gemini 2.5 Pro 的视觉理解与推理能力构建的全新专用模型，能够赋能可与用户界面（UI）交互的智能体。该模型在多项网页与移动端控制基准测试中表现优于主流竞品，且均具备更低的延迟。开发者可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 访问这些能力。

尽管 AI 模型可通过结构化 API 与软件交互，但许多数字任务仍需直接与图形用户界面进行交互，例如填写并提交表单。为完成此类任务，智能体必须像人类一样浏览网页和应用程序：通过点击、键入和滚动。能够原生填写表单、操控下拉菜单和筛选器等交互元素，以及在登录状态下执行操作，是构建强大通用智能体的关键下一步。

工作原理

该模型的核心能力通过 Gemini API 中新增的 `computer_use` 工具对外提供，并应在循环结构中运行。该工具的输入包括用户请求、环境截图以及近期操作的历史记录。输入还可用于指定是否从完整的 UI 操作支持列表中排除某些功能，或指定需额外包含的自定义功能。

Gemini 2.5 Computer Use 模型工作流程

Diagram of AI agent loop: Initial task leads to a screenshot/context, which is sent to the Model, which returns a response to the computer environment to execute an action.

随后，模型分析这些输入并生成响应，该响应通常是一个函数调用，代表点击或输入等UI操作之一。此响应还可能包含请求最终用户确认的信息，对于某些操作（如进行购买），该确认是必需的。随后，客户端代码执行接收到的操作。

执行该操作后，GUI的新截图与当前URL将作为函数响应返回给Computer Use模型，从而重新启动循环。该迭代过程将持续进行，直至任务完成、发生错误，或因安全响应或用户决定而终止交互。

Gemini 2.5 Computer Use 模型主要面向网页浏览器进行了优化，但在移动端 UI 控制任务中同样展现出巨大潜力。目前尚未针对桌面操作系统级控制进行优化。

查看下方的几个演示，了解模型的实际运行效果（此处以3倍速播放）。

提示：“从 https://tinyurl.com/pet-care-signup 获取所有拥有加州居住地址的宠物的详细信息，并将它们作为客户添加至我位于 https://pet-luxe-spa.web.app/ 的水疗中心 CRM 系统中。然后，与专家 Anima Lavar 预约 10 月 10 日早上 8 点之后的任意时间进行复诊。就诊原因与其申请的治疗项目一致。”

提示词：“我的艺术社团在展会前进行了任务头脑风暴。看板目前较为混乱，我需要你协助将任务整理到我创建的分类中。请访问 sticky-note-jam.web.app，确保便签已清晰放置在正确的分区内。若未归位，请将其拖拽至相应位置。”

性能表现

Gemini 2.5 Computer Use 模型在多项网页与移动端控制基准测试中展现出强劲的性能。下表包含的结果来源于自行报告的数据、由 Browserbase 执行的评估以及我们自行进行的评估。评估详情可在 Gemini 2.5 Computer Use 评估信息及 Browserbase 的博客文章中查阅。除非另有说明，所示分数均针对通过 API 提供的计算机使用工具。

Gemini 2.5 Computer Use 在多项基准测试中表现优于领先的同类方案

Benchmark performance table: Gemini 2.5 Computer Use leads in Online-Mind2Web, WebVoyager, and AndroidWorld benchmarks.

该模型在浏览器控制任务中实现了领先的水准与最低的延迟，其性能已通过 Online-Mind2Web 的 Browserbase 评测框架得到验证。

Gemini 2.5 Computer Use 在保持低延迟的同时实现了高精度。

Latency vs. Quality scatterplot: Gemini 2.5 Computer Use is lowest in latency and highest in accuracy (70%+ accuracy, ∼225 sec latency).

我们的安全处理方法

我们相信，构建能够惠及所有人的智能体的唯一途径，是从一开始就秉持负责任的态度。控制计算机的 AI 智能体会带来独特的风险，包括用户的故意滥用、模型的意外行为，以及网络环境中的提示词注入与诈骗。因此，审慎实施安全护栏至关重要。

我们已将安全特性直接训练至模型中，以应对这三大关键风险（详见 Gemini 2.5 Computer Use System Card）。

此外，我们还为开发者提供了安全控制机制，使开发者能够防止模型自动完成潜在的高风险或有害行为。此类行为的示例包括破坏系统完整性、危及安全性、绕过 CAPTCHAs 或控制医疗设备。这些控制机制：

逐步骤安全服务：一种独立于模型之外、在推理阶段运行的安全服务，用于在模型提议的每个操作执行前进行评估。
系统指令：开发者可进一步设定，智能体在执行特定类型的高风险操作前，必须拒绝执行或请求用户确认。（详见文档示例。）

有关安全措施与最佳实践的更多开发者建议，请参阅我们的文档。尽管这些保障措施旨在降低风险，我们仍强烈建议所有开发者在正式发布前对系统进行充分测试。

早期测试者如何使用它

Google 团队已将该模型投入生产环境，用于 UI 测试等场景，可显著提升软件开发速度。该模型的不同版本也已为 Project Mariner、Firebase Testing Agent 以及 Search 中的 AI Mode 里的部分智能体功能提供驱动支持。

我们早期访问计划的用户也在测试该模型，用于驱动个人助手、工作流自动化和UI测试，并取得了显著成效。用他们自己的话说：

快速入门

即日起，该模型已开放公开预览，可通过 Google AI Studio 和 Vertex AI 上的 Gemini API 进行访问。

立即试用：在由 Browserbase 托管的演示环境中。
开始构建：深入查阅我们的参考与文档（企业用途请参阅 Vertex AI 文档），了解如何在本地使用 Playwright 或在云端虚拟机中使用 Browserbase 构建您自己的智能体循环。
加入社区：我们非常期待看到您的开发成果。请在我们的开发者论坛分享反馈，并协助我们规划产品路线图。

POSTED IN:

正文：Google DeepMind
Gemini 模型
AI 产品

推出 Gemini 2.5 Computer Use 模型

中文内容

推出 Gemini 2.5 Computer Use 模型

总体概述

工作原理

性能表现

我们的安全处理方法

早期测试者如何使用它

快速入门

原文标题