元鉴
返回中文阅读流

Google DeepMind Blog

Gemini 2.5:我们最智能的模型正在变得更好

Gemini 2.5 Pro 仍受开发者青睐,2.5 Flash 迎来更新;新增 Deep Think 等能力。

中文内容

已翻译official company source英文原文2025-05-20

Gemini 2.5:我们最智能的模型正在变得更好

2025年5月20日

·

Gemini 2.5 Pro 继续作为最适合编码的模型受到开发者喜爱,2.5 Flash 也通过新更新变得更好。我们还在为模型带来新能力,包括 Deep Think,这是面向 2.5 Pro 的实验性增强推理模式。

Abstract illustration of two brightly colored blue squiggly lines in front of a black background
本文内容
本文内容
  • 2.5 Pro 性能
  • 正文:Deep Think
  • 2.5 Flash 改进
  • 2.5 新能力
  • 开发者体验

今年3月,我们发布了 Gemini 2.5 Pro,这是我们迄今最智能的模型;两周前,我们提前向开发者推出了 I/O 更新,帮助他们构建出色的 Web 应用。今天,我们将分享 Gemini 2.5 模型系列的更多更新:

  • 除了 2.5 Pro 在学术基准测试上的出色表现外,它现在还在 WebDev Arena 和 LMArena 排行榜上位居全球领先地位,并在帮助人们学习方面表现领先。
  • 我们正在为 2.5 Pro 和 2.5 Flash 带来新能力:原生音频输出,以实现更自然的对话体验;高级安全防护;以及 Project Mariner 的计算机使用能力。2.5 Pro 将通过 Deep Think 进一步提升,这是一种面向高度复杂数学和编码任务的实验性增强推理模式。
  • 我们持续投资于开发者体验,在 Gemini API 和 Vertex AI 中引入思维摘要以提升透明度,将思考预算扩展到 2.5 Pro 以提供更多控制,并在 Gemini API 和 SDK 中增加对 MCP 工具的支持,以便访问更多开源工具。
  • 2.5 Flash 现已在 Gemini 应用中向所有人开放;我们将在6月初面向开发者在 Google AI Studio、面向企业在 Vertex AI 中正式推出更新版本,2.5 Pro 随后也将推出。

这一显著进展源于 Google 各团队为改进我们的技术,并以安全、负责任的方式开发和发布这些技术所付出的不懈努力。下面让我们深入了解。

2.5 Pro 的表现比以往更好

我们最近更新了 2.5 Pro,帮助开发者构建更丰富的交互式 Web 应用。很高兴看到用户和开发者的积极反馈,我们也在继续根据用户反馈进行改进。

除了在学术基准测试中的强劲表现外,新的 2.5 Pro 现在还以 1415 的 ELO 分数领跑热门编码排行榜 WebDev Arena。它还在 LMArena 的所有排行榜上处于领先地位,LMArena 从多个维度评估人类偏好。并且,凭借 100 万 token 的上下文窗口,2.5 Pro 具备最先进的长上下文和视频理解性能。

自从纳入 LearnLM——我们与教育专家共同构建的模型系列——以来,2.5 Pro 现在也成为学习方面的领先模型。在评估其教学法和有效性的正面对比中,教育工作者和专家在多种场景下都更偏好 Gemini 2.5 Pro,而不是其他模型。此外,在用于构建学习型 AI 系统的五项学习科学原则中,它在每一项上都优于顶尖模型。

请阅读我们更新后的 Gemini 2.5 Pro 模型卡,以及 Gemini 技术页面上的更多内容。

正文:Deep Think

通过探索 Gemini 思考能力的前沿,我们开始测试一种名为 Deep Think 的增强推理模式,它使用新的研究技术,使模型能够在回应前考虑多个假设。

2.5 Pro Deep Think 在 2025 USAMO 上取得了令人印象深刻的分数,USAMO 目前是最难的数学基准之一。它还在 LiveCodeBench 上领先,LiveCodeBench 是一个面向竞赛级编码的高难度基准;并在测试多模态推理的 MMMU 上获得 84.0% 的成绩。

Chart demonstrating Gemini 2.5 Pro Deep think's advanced capabilities

由于我们正在用 2.5 Pro DeepThink 定义前沿,因此我们会花更多时间开展前沿安全评估,并进一步征求安全专家意见。作为其中一部分,我们将通过 Gemini API 向可信测试人员开放,以便在广泛推出前获取他们的反馈。

更好的 2.5 Flash

2.5 Flash 是我们最高效的主力模型,专为速度和低成本而设计;现在它在多个维度上都有提升。它在推理、多模态、代码和长上下文等关键基准测试中都有改进,同时效率更高,在我们的评估中使用的 token 减少了 20% 至 30%。

Chart comparing Gemini 2.5 Flash with other models

新的 2.5 Flash 现已在面向开发者的 Google AI Studio、面向企业的 Vertex AI 以及面向所有人的 Gemini 应用中提供预览。6月初,它将正式可用于生产环境。

请阅读我们更新后的 Gemini 2.5 Flash 模型卡,以及 Gemini 技术页面上的更多内容。

Gemini 2.5 新能力

原生音频输出和 Live API 改进

今天,Live API 推出音视频输入和原生音频输出对话的预览版,因此你可以直接构建对话体验,让 Gemini 更自然、更具表现力。

它还允许用户引导其语气、口音和说话风格。例如,你可以要求模型在讲故事时使用戏剧化的声音。它也支持工具使用,能够代表你进行搜索。

你可以试用一组早期功能,包括:

  • Affective Dialogue:模型会检测用户语音中的情绪并作出适当回应。
  • Proactive Audio:模型会忽略背景对话,并知道何时回应。
  • Live API 中的 Thinking:模型利用 Gemini 的思考能力来支持更复杂的任务。

我们还发布了 2.5 Pro 和 2.5 Flash 文本转语音的新预览版。这些版本首次支持多说话人,可通过原生音频输出实现双声文本转语音。

与 Native Audio 对话一样,文本转语音富有表现力,并能捕捉非常细微的差别,例如耳语。它支持超过 24 种语言,并能在这些语言之间无缝切换。

这项文本转语音能力将于今天晚些时候在 Gemini API 中提供。

计算机使用

我们正在将 Project Mariner 的计算机使用能力引入 Gemini API 和 Vertex AI。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 等公司正在探索其潜力,我们很高兴能在今年夏天更广泛地推出,供开发者试用。

更好的安全性

我们还显著增强了针对安全威胁的防护,例如间接提示注入。间接提示注入是指恶意指令被嵌入到 AI 模型检索的数据中。我们的新安全方法显著提高了 Gemini 在工具使用过程中抵御间接提示注入攻击的防护率,使 Gemini 2.5 成为我们迄今最安全的模型系列。

请在 Google DeepMind 博客上阅读更多关于我们在安全、责任和安全防护方面工作的内容,以及我们如何推进 Gemini 的安全防护。

增强的开发者体验

思维摘要

2.5 Pro 和 Flash 现在将在 Gemini API 和 Vertex AI 中包含思维摘要。思维摘要会将模型的原始思路整理成清晰的格式,包含标题、关键细节以及关于模型操作的信息,例如它们何时使用工具。

我们希望通过对模型思考过程采用更结构化、更简明的格式,开发者和用户能够更容易理解与 Gemini 模型的交互并进行调试。

思考预算

我们在 2.5 Flash 中推出了思考预算,让开发者通过平衡延迟和质量,更好地控制成本。现在我们正将这一能力扩展到 2.5 Pro。这允许你控制模型在回应前用于思考的 token 数量,甚至关闭其思考能力。

带有预算功能的 Gemini 2.5 Pro 将在未来几周内与我们的正式版模型一起全面开放,用于稳定的生产环境。

MCP 支持

我们在 Gemini API 中为 Model Context Protocol(MCP)定义增加了原生 SDK 支持,以便更轻松地集成开源工具。我们还在探索部署 MCP 服务器和其他托管工具的方法,使你更容易构建智能体应用。

我们始终在创新新方法,以改进模型和开发者体验,包括提高效率和性能,并持续回应开发者反馈,因此请继续向我们反馈!我们也将继续加大对基础研究广度和深度的投入,推动 Gemini 能力前沿。更多内容即将到来。

请在我们的网站上了解更多关于 Gemini 及其能力的信息。

原文标题

Gemini 2.5: Our most intelligent models are getting even better