中文内容
利用 Gemini Deep Think 加速数学与科学发现
Thang Luong 和 Vahab Mirrokni
2025 年夏天,一个高级版本的 Gemini Deep Think 在国际数学奥林匹克竞赛(IMO)中达到了金牌标准,随后一个更新版本在国际大学生程序设计竞赛中取得了类似成绩。这些结果表明,该模型能够推理解决一些为学生设计的最具挑战性的数学和编程问题。自那以后,Gemini Deep Think 模式已进入科学、工程和企业工作流程,用于应对更复杂、开放式的挑战。
上周,我们的团队发表了两篇论文(1、2),详细介绍了使用 Gemini Deep Think 模式解决专业研究问题的跨学科努力。这些成果源于数学家、物理学家和计算机科学家之间的深度合作。
纯数学前沿
与 IMO 题目不同,研究级数学需要运用来自浩繁文献的高级技术。尽管基础模型拥有庞大的知识库,但数据稀缺往往会导致其在高级学科中理解流于表面并产生幻觉。
为解决这一问题,我们构建了一个数学研究智能体(内部代号为 Aletheia),由 Gemini Deep Think 模式驱动。它具备自然语言验证器,可识别候选解法中的缺陷,并支持生成和修订解法的迭代流程。关键的是,该智能体能够承认无法解决某个问题,这一关键特性提高了研究人员的效率。
此外,该研究智能体使用 Google Search 和网页浏览来开展复杂研究,在综合已发表文献时避免虚假引用和计算错误。
自 2025 年 7 月达到 IMO 金牌标准以来,Gemini Deep Think 进展迅速,随着推理时计算规模的扩大,在 IMO-ProofBench Advanced 测试中的得分最高达到 90%。我们证明,随着我们从奥林匹克竞赛水平推进到博士水平习题(根据我们的内部 FutureMath Basic 基准),这一扩展定律仍然成立。值得注意的是,Aletheia 证明,可以在更低的推理时计算量下实现更高的推理质量。
对于研究级数学,Aletheia 已经通过不同程度的自主研究促成了若干进展:
- 可靠的自主研究。一篇由 AI 在无人类干预的情况下生成的研究论文(Feng26),计算了算术几何中称为特征权重的某些结构常数。
- AI 引导的协作。一篇研究论文(LeeSeo26)展示了人类与 AI 在证明相互作用粒子系统(称为独立集)的界方面的协作。
- 一项广泛的半自主评估(Feng et al., 2026b)针对 Bloom’s Erdős Conjectures database 上的 700 个开放问题进行,其中包括对该数据库所列四个开放问题的自主解答。在 Erdős-1051 上,我们的模型自主解决了该问题,并帮助促成了一项推广,该推广已在一篇研究论文(BKKKZ26)中报告。
该智能体还为另外两篇论文(FYZ26)和(ACGKMP26)贡献了中间命题。还值得注意的是,此前已有使用 Gemini 进行研究级数学工作的先例,但在协作规模和所处理问题数量方面规模较小。
在与数学界进行广泛讨论后,我们提出了一种分类法,用于按重要性和 AI 贡献程度对 AI 辅助的数学研究进行分类——为围绕 AI 生成结果的负责任记录、评估和传播所展开的更广泛讨论作出贡献。2级(“可发表质量”)成果已提交至知名期刊。目前,我们不声称有任何3级(“重大进展”)和4级(“里程碑式突破”)成果。
提示词和模型输出可在此处获取。关于 AI 贡献、我们的“人类-AI 互动卡”以及社区影响的讨论,请参见我们的论文。
扩展到物理学和计算机科学
Gemini Deep Think 模式也已在计算机科学和物理学领域展现出潜力。第二篇论文基于类似的智能体式推理思想,并确定了有效的协作“配方”,尤其是“Advisor”模型,即人类通过迭代式“Vibe-Proving”循环引导 AI,以验证直觉并完善证明。我们还详细介绍了“平衡提示”等战术技巧——要求同时给出证明或反驳,以防止确认偏误——以及代码辅助验证。这些方法结合该模型通过深层结构性联系连接不同科学领域的能力,正在改变理论研究的开展方式。这项工作建立在我们成功部署高级版本 Gemini Deep Think 以协助审阅 STOC’26 会议 CS 理论论文的基础之上。
在与专家围绕 18 个研究问题开展合作的过程中,高级版本的 Gemini Deep Think 帮助解决了算法、ML 与组合优化、信息论以及经济学领域长期存在的瓶颈。我们的“Accelerating Research with Gemini”论文中的亮点包括(括号内为论文中对应章节编号):
- 跨越数学边界解决网络难题:对于“Max-Cut”(高效拆分网络)和“Steiner Tree”(连接高维点)等经典计算机科学问题,相关进展曾一度放缓。Gemini 通过跳出固有框架打破了这两个僵局。它从完全无关的连续数学分支中引入 Kirszbraun Theorem、测度论和 Stone-Weierstrass theorem 等高级工具,解决了这些离散算法难题。见第 4.1 节和第 4.2 节。
- 解决在线子模优化中一个存在十年的猜想:一篇 2015 年的理论论文为数据流提出了一条看似显而易见的规则:复制一个到达的项目,其价值总是低于直接移动原始项目。专家们为证明这一点努力了十年。Gemini 构造了一个高度特定的三项目组合反例,严格证明了这一长期以来的人类直觉是错误的。见第 3.1 节。
- 机器学习优化:训练 AI 过滤噪声通常需要工程师手动调节一个数学“惩罚项”。研究人员创建了一种能够自动完成这一过程的新技术,但无法从数学上解释其原因。Gemini 分析了相关方程,并证明该方法之所以成功,是因为它在运行过程中暗中生成了自己的“自适应惩罚项”。见第 8.3 节。
- 为 AI 升级经济理论:近期一项用于拍卖 AI 生成 token 的“显示原理”(Revelation Principle)在数学上只有当出价被限制为有理数时才成立。将定义域扩展到连续实数会使原始证明失效。Gemini 运用高级拓扑学和序理论扩展了该定理,使其能够适应现实世界中的连续拍卖动态。参见第 8.4 节。
- 宇宙弦物理学:计算宇宙弦产生的引力辐射需要求解包含“奇点”的复杂积分的解析解。Gemini 使用 Gegenbauer 多项式找到了一种新的解法。这自然地吸收了奇点,将一个无穷级数压缩为闭式的有限求和。参见第 6.1 节。
这些成果横跨从信息论和复杂性理论到密码学和机制设计等不同领域,展示了 AI 正在如何从根本上改变研究。详情请参见我们的论文。
鉴于计算机科学领域灵活且以会议为驱动的发表流程,我们按学术发展轨迹而非僵化的分类法来描述这些成果。约一半成果面向高水平会议——包括一篇被 ICLR ’26 接收的论文——而其余大多数发现将形成未来的期刊投稿。即使是通过识别错误(第 3.2 节)或反驳猜想(第 3.1 节)来纠正该领域方向,这些结果也凸显了 AI 作为高水平科学协作者的价值。
人类-AI 协作的未来
在 Google 此前突破(1、2、3、4、5)的基础上,这项工作表明,通用基础模型——结合智能体推理工作流加以利用——能够充当强大的科学伙伴。
在数学家、物理学家和计算机科学家等专家的指导下,Gemini Deep Think 模式正在复杂数学、逻辑和推理作为核心要素的各个领域证明其实用性。
我们正在见证科学工作流程的根本性转变。随着 Gemini 不断发展,它正成为人类智慧的“力量倍增器”,承担知识检索和严格验证工作,使科学家能够专注于概念深度和创造性方向。无论是完善证明、寻找反例,还是连接彼此割裂的领域,AI 正在成为科学进步下一篇章中的重要合作者。
致谢
我们感谢由专家数学家、物理学家和计算机科学家组成的社区在本项目中提供的帮助和建议。
本项目是 Google 内部一次大规模协作,其成功归功于众多个人和团队的共同努力。Thang Luong 和 Vahab Mirrokni 负责总体研究方向,Tony Feng 和 David Woodruff 则提供了深厚的技术专长。
第一篇论文“Towards Autonomous Mathematics Research”的作者包括:Tony Feng、Trieu H. Trinh、Garrett Bingham、Dawsen Hwang、Yuri Chervonyi、Junehyuk Jung、Joonkyung Lee、Carlo Pagano、Sang-hyun Kim、Federico Pasqualotto、Sergei Gukov、Jonathan N. Lee、Junsu Kim、Kaiying Hou、Golnaz Ghiasi、Yi Tay、YaGuang Li、Chenkai Kuang、Yuan Liu、Hanzhao (Maggie) Lin、Evan Zheran Liu、Nigamaa Nayakanti、Xiaomeng Yang、Heng-Tze Cheng、Demis Hassabis、Koray Kavukcuoglu、Quoc V. Le、Thang Luong。我们感谢以下专家对该工作提供的反馈和讨论:Jarod Alper、Kevin Barreto、Thomas Bloom、Sourav Chatterjee、Otis Chodosh、Michael Hutchings、Seongbin Jeon、Youngbeom Jin、Aiden Yuchan Jung、Jiwon Kang、Jimin Kim、Vjekoslav Kovač、Daniel Litt、Ciprian Manolescu、Mona Merling、Agustin Moreno、Carl Schildkraut、Johannes Schmitt、Insuk Seo、Jaehyeon Seo、Terence Tao、Cheng-Chi
第二篇论文《Accelerating Scientific Research with Gemini: Case Studies and Common Techniques》的作者包括 David P. Woodruff、Vincent Cohen-Addad、Lalit Jain、Jieming Mao、Song Zuo、MohammadHossein Bateni、Simina Branzei、Michael P. Brenner、Lin Chen、Ying Feng、Lance Fortnow、Gang Fu、Ziyi Guan、Zahra Hadizadeh、Mohammad T. Hajiaghayi、Mahdi JafariRaviz、Adel Javanmard、Karthik C. S.、Ken-ichi Kawarabayashi、Ravi Kumar、Silvio Lattanzi、Euiwoong Lee、Yi Li、Ioannis Panageas、Dimitris Paparas、Benjamin Przybocki、Bernardo Subercaseaux、Ola Svensson、Shayan Taherijam、Xuan Wu、Eylon Yogev、Morteza Zadimoghaddam、Samson Zhou、Yossi Matias、Jeff Dean、James Manyika、Vahab Mirrokni。该名单包括在 Gemini 之上构建智能体推理的 Google 研究人员,以及验证 Gemini 并与其合作的学术专家合作者。我们还感谢 Corinna Cortes 的 h
我们感谢 DeepThink 团队其他成员提供的基础性支持:Anirudh Baddepudi、Michael Brenner、Irene Cai、Kristen Chiafullo、Paul Covington、Rumen Dangovski、Chenjie Gu、Huan Gui、Vihan Jain、Rajesh Jayaram、Melvin Johnson、Rosemary Ke、Maciej Kula、Nate Kushman、Jane Labanowski、Steve Li、Pol Moreno、Sidharth Mudgal、William Nelson、Ada Maksutaj Oflazer、Sahitya Potluri、Navneet Potti、Shubha Raghvendra、James Roggeveen、Siamak Shakeri、Archit Sharma、Xinying Song、Mukund Sundararajan、Qijun Tan、Zak Tsai、Erik Wang、Theophane Weber、Winnie Xu、Zicheng Xu、Junwen Yao、Shunyu Yao、Adams Yu、Lijun Yu 和 Honglei Zhuang。
我们要感谢 Gemini Post-Training 团队为 Deep Think 构建基础模型:Arash Ahmadian、Ankesh Anand、Charles Chen、Yong Cheng、Kedar Dhamdhere、Philipp Fränken、Justin Gilmer、Elena Gribovskaya、Luheng He、Yangsibo Huang、Rishabh Joshi、Ajay Kannan、Arvind Kannan、Guangda Lai、Robert Leland、Hanzhao (Maggie) Lin、Yingjie Miao、Bryce Petrini、Corbin Quick、Vikash Sehwag、Yue Song、Pranav Talluri、Ankur Taly、George Tucker、Michael Voznesensky、Manish Reddy Vuyyuru、Yiming Wang、Jinliang Wei、Qiao Zhang、Yuan Zhang、Zizhao Zhang。
我们感谢 Quoc Le、Koray Kavukcuoglu、Demis Hassabis、James Manyika、Yossi Matias 和 Jeff Dean 对该项目的赞助。
最后但同样重要的是,我们感谢 Divy Thakkar、Adam Brown、Vinay Ramasesh、Alex Davies、Thomas Hubert、Eugénie Rives、Pushmeet Kohli、Benoit Schillings 对该项目提供的反馈和支持。