元鉴
返回中文阅读流

Google DeepMind Blog

在 Gemini 应用中试用 Deep Think

Deep Think 正向 Google AI Ultra 订阅者开放,并向部分数学家提供参加 IMO 的 Gemini 2.5 Deep Think 完整版模型。

中文内容

已翻译official company source英文原文2025-10-23

在 Gemini 应用中试用 Deep Think

2025年8月1日

·

我们正在 Gemini 应用中向 Google AI Ultra 订阅者推出 Deep Think,并向部分数学家开放曾参加 IMO 竞赛的 Gemini 2.5 Deep Think 模型完整版本。

Deep Think 团队
Read AI-generated summary

概述

Google AI Ultra 订阅者现在可以在 Gemini 应用中使用 Deep Think。该工具利用并行思考来解决复杂问题,并在编码和科学发现等领域表现出色。你可以在 Gemini 应用内的提示栏中切换开启 Deep Think。

Summaries were generated by Google AI. Generative AI is experimental.
Gemini 2.5 Deep Think

今天,我们正将 Deep Think 在 Gemini 应用中提供给 Google AI Ultra 订阅者使用——这是专为他们开放的一系列极高能力 AI 工具和功能中的最新一项。

此次新发布版本融合了早期可信测试者的反馈和研究突破。根据关键基准测试提升和可信测试者反馈衡量,相比 I/O 上首次公布的版本,它有显著改进。它是近期在今年国际数学奥林匹克竞赛(IMO)中达到金牌标准的模型的一个变体。虽然那个模型需要数小时来推理复杂数学问题,但今天发布的版本速度更快,更适合日常使用;根据内部评估,它仍能在 2025 年 IMO 基准上达到铜牌级表现。

Deep Think 可能成为创造性问题解决中的强大工具:

在我们将 Deep Think 交到 Google AI Ultra 订阅者手中的同时,我们也将把达到金牌标准的 Gemini 2.5 Deep Think 模型官方版本分享给一小部分数学家和学者。我们期待了解它如何增强他们的研究和探究,并将在继续改进这一产品时利用他们的反馈。

此次发布代表着我们在构建更有帮助、更有能力的 AI 使命上迈出的重要一步,也进一步体现了我们使用 Gemini 推动人类知识前沿的承诺。

Deep Think 如何工作:延长 Gemini 的并行“思考时间”

正如人们会花时间从不同角度探索、权衡潜在解决方案并完善最终答案来处理复杂问题,Deep Think 通过使用并行思考技术来推进思考能力的前沿。这种方法让 Gemini 能够一次生成许多想法并同时加以考虑,甚至随着时间推移修订或组合不同想法,然后得出最佳答案。

此外,通过延长推理时间或“思考时间”,我们让 Gemini 有更多时间探索不同假设,并为复杂问题找到创造性解决方案。

我们还开发了新的强化学习技术,鼓励模型利用这些延展的推理路径,从而使 Deep Think 随着时间推移成为更优秀、更直观的问题解决者。

Deep Think 的表现:最先进的性能

Deep Think 可以帮助人们处理需要创造力、战略规划和逐步改进的问题,例如:

  • 迭代式开发与设计:Deep Think 在需要逐块构建复杂事物的任务中的表现令我们印象深刻。例如,我们观察到 Deep Think 可以提升网页开发任务的美观性和功能性。

Gemini 应用中的 Deep Think 使用并行思考技术,提供更详细、更有创造性、更深思熟虑的回答。

A comparison of three AI-generated voxel art scenes. Each image shows a pagoda in a garden with trees and cherry blossoms, demonstrating increasing detail and complexity from left to right. The images are labeled "Gemini 2.5 Flash," "Gemini
  • 科学与数学发现:由于它能够推理高度复杂的问题,Deep Think 可以成为研究人员的强大工具。它可以帮助提出和探索数学猜想,或推理复杂的科学文献,从而可能加快通往发现的进程。
  • 算法开发与代码:Deep Think 尤其擅长处理困难的编码问题,在这类问题中,问题表述以及对权衡和时间复杂度的谨慎考量至关重要。

Deep Think 的性能也体现在衡量编码、科学、知识和推理能力的高难度基准测试中。例如,与不使用工具的其他模型相比,Gemini 2.5 Deep Think 在 LiveCodeBench V6 和 Humanity’s Last Exam 上实现了最先进的表现;前者衡量竞赛代码能力,后者是衡量不同领域专业知识的高难度基准,包括科学和数学。

A set of four bar charts comparing AI model performance. Gemini 2.5 is the top performer in reasoning, code, and math benchmarks against Gemini 2.5 Pro, OpenAI 03, and Grok 4.

我们如何负责任地推进 Gemini

在整个训练和部署生命周期中,我们持续将安全性和责任融入 Gemini。在测试中,与 Gemini 2.5 Pro 相比,Gemini 2.5 Deep Think 展现出更好的内容安全性和语气客观性,但也更倾向于拒绝无害请求。

随着 Gemini 的问题解决能力提升,我们正在更深入地审视随复杂性增加而来的风险,包括我们的前沿安全评估,以及针对关键能力级别实施计划中的缓解措施。

有关 Gemini 2.5 Deep Think 安全结果的更多细节可在模型卡中查看。

今天如何在 Gemini 应用中使用 Deep Think

如果你是 Google AI Ultra 订阅者,今天就可以在 Gemini 应用中使用 Deep Think:在模型下拉菜单中选择 2.5 Pro 时,在提示栏中切换“Deep Think”即可,每天可使用固定数量的提示。Deep Think 会自动配合代码执行和 Google Search 等工具工作,并能生成更长的回答。

我们还在努力于未来几周通过 Gemini API 向一组可信测试者发布带工具和不带工具的 Deep Think,以更好地了解其在开发者和企业用例中的可用性。

从研究到部署,几乎技术栈每一层的团队都在努力让 Deep Think 对 Gemini 应用用户而言更快、更可靠、更友好。我们迫不及待想看到你用它构建的成果。

发布于:
  • Gemini 模型
  • Gemini 应用
  • 正文:Google DeepMind

原文标题

Try Deep Think in the Gemini app