中文内容
Gemini 2.5 的高级音频对话与生成能力
2025年6月3日
·下面更详细地了解 Gemini 2.5 在音频对话与生成方面的新特性。
Gemini 从一开始就被构建为多模态模型,能够原生理解并生成跨文本、图像、音频、视频和代码的内容。在 I/O 大会上,我们展示了 Gemini 2.5 如何凭借 AI 驱动的音频对话与生成新能力,标志着一项重大进展。
我们已经在使用这些模型,通过众多产品、原型和语言,为全球用户带来音频体验。NotebookLM 的 Audio Overviews 和 Project Astra 只是其中两个例子。下面更详细地介绍你可以用 Gemini 2.5 原生音频能力做些什么。
实时音频对话
人类对话丰富而细腻,意义不仅通过说了什么来传达,也通过如何表达来传达——包括语调、口音,甚至笑声等非语言发声。我们认为,对话将成为我们与 AI 交互的关键方式。因此,Gemini 能够以音频形式原生进行推理并生成语音,从而实现有效的实时沟通。
Gemini 2.5 Flash 预览版的原生音频对话功能包括:
- 自然对话:质量出色的语音交互,更恰当的表达力和韵律(节奏模式),并以极低延迟呈现,让你能够流畅对话。
- 风格控制:通过自然语言提示,你可以在对话中调整表达方式,引导其采用特定口音,产生多种语气和表情,甚至低声耳语。
- 工具集成:Gemini 2.5 可以在对话中使用工具和函数调用。这使其能够整合来自 Google Search 等来源的实时信息,或使用开发者自定义构建的工具,让对话更实用。
- 对话语境感知(主动音频):我们的系统经过训练,可以识别并忽略背景语音、环境对话和其他无关音频,并在适当时作出回应。基本上,它知道什么时候不该说话。
- 音频-视频理解:凭借对流式音频和视频的原生支持,Gemini 2.5 可以就其在视频画面或屏幕共享中看到的内容与你对话。
- 多语言能力:可使用我们支持的 24 种以上语言中的任意一种进行对话,甚至可以在同一句话中轻松混合多种语言。
- 情感对话:Gemini 2.5 会响应用户的语调,识别同样的词语以不同方式说出时,可能引发非常不同的对话。
- 高级思考对话:Gemini 的推理能力可以增强其对话表现,从而在所有功能上带来整体更好的性能。这会带来更连贯、更智能的交互,尤其适用于复杂推理任务。
可控文本转语音(TTS)
文本转语音技术正在快速发展,借助我们的最新模型,我们正从追求自然度迈向对生成音频前所未有的控制。现在,你可以生成从短片段到长篇叙事的各种内容,并精确指定风格、语气、情感表达和表演方式——所有这些都可通过自然语言提示进行引导。
其他控制项和能力包括:
- 动态表演:这些模型可以让文本生动起来,适用于从诗歌到新闻播报再到引人入胜的故事讲述等富有表现力的朗读。它们还可以在请求时以特定情绪进行演绎并生成口音。
- 增强的语速与发音控制:控制表达速度,并确保发音更准确,包括对特定词语的发音。
- 多说话人对话生成:该模型可以根据文本输入生成两人“NotebookLM 风格”的音频概览,通过对话让内容更具吸引力。
- 多语言能力:使用 Gemini 2.5 轻松创建多语言音频内容,同样支持 24 种以上语言。
对于可控语音生成(TTS),可选择 Gemini 2.5 Pro Preview 以获得复杂提示下的先进质量,或选择 Gemini 2.5 Flash Preview 用于高性价比的日常应用。这使开发者能够为公告、故事、播客、电子游戏等动态创建音频。
安全与责任
在这些原生音频功能开发过程的每个阶段,我们都主动评估了潜在风险,并利用所学内容制定缓解策略。我们通过严格的内部和外部安全评估来验证这些措施,包括用于负责任部署的全面红队测试。此外,我们模型的所有音频输出都嵌入了 SynthID——我们的水印技术,通过让 AI 生成音频可被识别来确保透明度。
面向开发者的原生音频能力
我们正在将原生音频输出带入 Gemini 2.5 模型,使开发者能够通过 Google AI Studio 或 Vertex AI 中的 Gemini API 构建更丰富、更具交互性的应用。
要开始探索,开发者可以在 Google AI Studio 的 stream 标签页中试用 Gemini 2.5 Flash 预览版的原生音频对话。Gemini 2.5 Pro 和 Flash 的可控语音生成(TTS)均已提供预览版,可在 Google AI Studio 的 generate media 标签页中选择 speech generation 使用。
- 正文:Google DeepMind
- Gemini 模型






