中文内容

已翻译official company source英文原文2025-12-12

改进版 Gemini 音频模型，打造强大的语音交互

正文：Bibo Xu

产品管理总监

正文：Tara Sainath

杰出研究科学家

Read AI-generated summary

概述

Google 增强了 Gemini 2.5 Flash Native Audio，以支持更好的实时语音智能体。可期待更精准的函数调用、更稳健的指令遵循和更流畅的对话。Google Translate 应用测试版中的实时语音翻译现已开始在美国、墨西哥和印度的 Android 上推出。

Summaries were generated by Google AI. Generative AI is experimental.

要点

“改进版 Gemini 音频模型，打造强大的语音交互”增强了实时智能体和翻译能力。Gemini 2.5 Flash Native Audio 现在具备更精准的函数调用和更好的指令遵循。该更新可通过检索前几轮对话的上下文来实现更流畅的对话。Google Translate 中的实时语音翻译可保留语调，并支持 70 多种语言。你现在可以在 Vertex AI 上使用 Gemini 2.5 Flash Native Audio 开始构建语音智能体。

Summaries were generated by Google AI. Generative AI is experimental.

基础解读

Google 提升了其 Gemini AI 在对话中的理解和表达能力。它现在能更好地理解指令、进行更流畅的对话，并实时翻译语言。这意味着 AI 可以帮助企业开展客户服务，也可以帮助人们在语言不同的情况下更好地相互理解。你甚至可以在 Google Translate 应用中试用实时翻译功能。

Summaries were generated by Google AI. Generative AI is experimental.

探索其他风格：

概述
要点
基础解读

你的浏览器不支持音频元素。

Listen to article

此内容由 Google AI 生成。生成式 AI 仍处于实验阶段

[[duration]] 分钟

语音速度

语音

速度正文：0.75X 正文：1X 正文：1.5X 正文：2X

本周早些时候，我们通过升级 Gemini 2.5 Pro 和 Flash Text-to-Speech 模型，引入了对音频生成的更强控制能力。

但生成富有表现力的语音只是对话的一面。今天，我们发布了面向实时语音智能体的更新版 Gemini 2.5 Flash Native Audio。此次更新提升了模型处理复杂工作流、理解用户指令以及进行自然对话的能力。

Gemini 2.5 Flash Native Audio 现已在 Google AI Studio、Vertex AI 等 Google 产品中提供，并已开始在 Gemini Live 和 Search Live 中推出，首次将原生音频的自然度带入 Search Live。这意味着你可以更高效地与 Gemini 进行实时头脑风暴，在 Search Live 中获得实时帮助，或构建下一代面向企业的客户服务智能体。

除了为实用智能体提供支持之外，原生音频还为全球沟通开启了新的可能性。我们正在推出实时语音翻译，这是一项可为耳机实现流式语音到语音翻译的能力。它会保留说话者的语调、语速和音高。这一测试版体验从今天起在 Google Translate 应用中推出。

实时语音智能体

为支持跨界面和产品的广泛用例，我们在三个关键领域改进了 Gemini 2.5 Native Audio：

更精准的函数调用：我们提升了模型在触发外部函数时的可靠性。它现在可以在对话中更准确地识别何时需要获取实时信息，并在不中断流程的情况下，将这些数据无缝融入音频回复。在 ComplexFuncBench Audio 这一用于评估带有多种约束的多步骤函数调用的评测中，Gemini 2.5 Native Audio 以 71.5% 的得分领先。
稳健的指令遵循：模型现在更善于处理复杂指令，从而在内容完整性方面带来更高的用户满意度。其对开发者指令的遵循率达到 90%（高于此前的 84%），能够提供更可靠的输出。
更流畅的对话：我们在多轮对话质量方面取得了显著提升。Gemini 2.5 Flash Native Audio 能更有效地检索前几轮对话中的上下文，从而生成更连贯的对话。

更新版 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上相较于此前版本和行业竞品的表现

updated Gemini 2.5 Flash Native Audio’s performance against previous versions and industry competitors

客户评价

Google Cloud 客户已经在使用 Gemini 的原生音频能力推动实际业务成果，覆盖从抵押贷款处理到客户通话等场景。

“用户在使用 Sidekick 不到一分钟后，往往会忘记自己是在和 AI 对话；在一些情况下，经过长时间聊天后还会向机器人表示感谢……通过 Gemini [2.5 Flash Native Audio] 提供的新 Live API AI 能力，帮助我们的商家赢得竞争。”——David Wurtz，Shopify 产品副总裁
“通过集成 Gemini 2.5 Flash Native Audio 模型……自 2025 年 5 月推出以来，我们显著增强了 Mia 的能力。这一强大组合使我们能够为经纪合作伙伴生成超过 14,000 笔贷款。”——Jason Bressler，United Wholesale Mortgage（UWM）首席技术官
“通过 Vertex AI 使用 Gemini 2.5 Flash Native Audio 模型，使 Newo.ai AI Receptionists 能够实现无与伦比的对话智能……它们即使在嘈杂环境中也能识别主要说话者，在对话中途切换语言，并且听起来非常自然且富有情感表现力。”——David Yang，Newo.ai 联合创始人

实时语音翻译

Gemini 现在原生支持新的实时语音到语音翻译能力，旨在同时处理连续聆听和双向对话。

通过连续聆听，Gemini 会自动将多种语言的语音翻译为单一目标语言。这让你可以戴上耳机，用自己的语言听懂周围的世界。

对于双向对话，Gemini 的实时语音翻译可在两种语言之间进行实时翻译，并根据说话者自动切换输出语言。例如，如果你说英语并想与一位说印地语的人聊天，你会在耳机中实时听到英语翻译，而当你说完后，手机会播放印地语。

Gemini 的实时语音翻译具备多项有助于现实场景的关键能力：

语言覆盖：结合 Gemini 模型的世界知识、多语言能力和原生音频能力，翻译 70 多种语言、2000 个语言组合的语音
风格迁移：捕捉人类语音的细微差别，保留说话者的语调、语速和音高，使译文听起来自然。
多语言输入：在单个会话中同时理解多种语言，帮助你跟进多语言对话，而无需反复调整语言设置。
自动检测：识别所说语言并开始翻译，因此你甚至无需知道对方说的是什么语言就能开始翻译。
抗噪能力：过滤环境噪声，即使在嘈杂的户外环境中也能舒适地交谈。

从今天开始，你可以在 Google Translate 应用中的全新测试版体验中试用该功能：将耳机连接到设备并点击“实时翻译”，即可在耳机中进行实时翻译。该体验正在向美国、墨西哥和印度的所有 Android 设备推出，未来将支持 iOS 和更多地区。

基于反馈，我们将继续迭代这一体验，并在 2026 年将其带到包括 Gemini API 在内的更多 Google 产品中。

立即开始

现在即可使用 Gemini 2.5 Flash Native Audio 开始构建语音智能体；该模型现已在 Vertex AI 上正式提供，并在 Gemini API 中以预览版形式提供。也可在 Google AI Studio 中试用。

Gemini 2.5 Flash 和 2.5 Pro text-to-speech 模型也可通过 Google AI Studio 中的 Gemini API 使用。可从语音生成文档入手，查看提示指南，或查阅 Gemini API Cookbook 以开始使用。

发布于：

Gemini 模型

改进版 Gemini 音频模型，打造强大的语音体验

中文内容

改进版 Gemini 音频模型，打造强大的语音交互

概述

要点

基础解读

探索其他风格：

实时语音智能体

客户评价

实时语音翻译

立即开始

原文标题