元鉴
返回中文阅读流

Google DeepMind Blog

搭载 Deep Think 的高级版 Gemini 正式在国际数学奥林匹克中达到金牌标准

国际数学奥林匹克(IMO)是全球最负盛名的青年数学竞赛,自1959年起每年举办,参赛者解答六道高难题。

中文内容

已翻译official company source英文原文2025-10-24
2025年7月21日研究

搭载 Deep Think 的高级版 Gemini 正式在国际数学奥林匹克中达到金牌标准

Thang Luong 和 Edward Lockhart

Abstract dark-blue image with a glowing wave and blurred mathematical equations, representing complex problem-solving and deep mathematical thought

近来,IMO 也已成为 AI 系统向往挑战的目标,用以测试其高级数学解题与推理能力。去年,Google DeepMind 的 AlphaProof 与 AlphaGeometry 2 组合系统达到银牌标准,解出了六道题中的四道,获得28分。借助专门的形式语言,这一突破表明 AI 正开始接近精英人类的数学推理水平。

今年,我们的模型结果被 IMO 协调员按与学生解答相同的标准正式评分和认证,我们也成为首批参与者之一。在肯定今年学生参赛者重大成就的同时,我们很高兴分享 Gemini 取得突破性表现的消息。

Gemini Deep Think 在 IMO 2025 上取得突破性表现

高级版 Gemini Deep Think 完美解出了六道 IMO 题目中的五道,总得分35分,达到金牌水平。解答可在此处在线查看。

我们可以确认,Google DeepMind 已达到备受期待的里程碑,在满分42分中获得35分——这是金牌分数。他们的解答在许多方面令人惊叹。IMO 阅卷员认为这些解答清晰、准确,且大多数易于理解。
IMO 主席 Gregor Dolinar 教授、博士

与去年取得的突破性结果相比,这一成就是一次重大进步。在 IMO 2024 上,AlphaGeometry 和 AlphaProof 需要专家先将题目从自然语言翻译为 Lean 等领域专用语言,并对证明进行反向转换。此外,计算还需要两到三天。今年,我们的高级 Gemini 模型以端到端自然语言方式运行,直接从官方题目描述生成严谨的数学证明——全部在4.5小时的竞赛时限内完成。

Diagram comparing AI advances in mathematics from IMO 2024 (Formal mathematics with AlphaProof and AlphaGeometry) to IMO 2025 (Informal mathematics with Advanced Gemini with Deep Think)

充分发挥 Deep Think 模式的能力

我们使用高级版 Gemini Deep Think 取得了今年的结果。Gemini Deep Think 是一种面向复杂问题的增强推理模式,融合了我们最新研究技术中的一部分,包括并行思考。这一设置使模型能够在给出最终答案前同时探索并组合多种可能解法,而不是沿着单一、线性的思维链推进。

为充分发挥 Deep Think 的推理能力,我们还使用新的强化学习技术训练了这一版本的 Gemini,这些技术能够利用更多多步推理、问题求解和定理证明数据。我们还向 Gemini 提供了一个精选的高质量数学题解答语料库,并在其指令中加入了一些关于如何处理 IMO 题目的通用提示和建议。

我们将向一批受信任的测试者提供这一 Deep Think 模型的某个版本,其中包括数学家,然后再向 Google AI Ultra 订阅用户推出。

AI 与数学的未来

Google DeepMind 正在与数学界持续合作,但我们仍只处在 AI 为数学作出贡献潜力的起点。通过教会我们的系统以更灵活、更直觉化的方式推理,我们正更接近构建能够解决更复杂、更高阶数学问题的 AI。

虽然我们今年的方法完全基于 Gemini 的自然语言能力,但我们也在继续推进形式系统 AlphaGeometry 和 AlphaProof。我们相信,结合自然语言流畅性与严谨推理能力的智能体——包括形式语言中的可验证推理——将成为数学家、科学家、工程师和研究人员的宝贵工具,帮助我们在通往 AGI 的道路上推进人类知识。

致谢

我们感谢国际数学奥林匹克组织的支持。

本项目是一项大规模协作,其成功归功于许多个人和团队的共同努力。Thang Luong 领导了 IMO 2025 工作的整体技术方向,并与 Edward Lockhart 共同负责总体协调。

IMO 2025 团队的负责人和主要贡献者如下:Dawsen Hwang、Junehyuk Jung、Jonathan Lee、Nate Kushman、Pol Moreno、Yi Tay、Lei Yu、Golnaz Ghiasi、Garrett Bingham、Lalit Jain、Vincent Cohen-Addad 和 Theophane Weber、Ankesh Anand、Steven Zheng、Vinh Tran、Vinay Ramasesh、Andreas Kirsch、Jieming Mao、Zicheng Xu、Wilfried Bounsi、Vahab Mirrokni、Hoang Nguyen、Fred Zhang、Mahan Malihi、Yangsibo Huang、Yuri Chervonyi、Trieu Trinh、Junsu Kim、Mirek Olšák、Marcelo Menegali、Xiaomeng Yang、Richard Song、Miklós Z. Horváth、Aja Huang、Goran Žužić。

用于 IMO 的搭载 Deep Think 的高级 Gemini 模型,建立在 Deep Think 团队的基础研究之上,并得到 GDM Thinking 领域的资助;相关后训练工作包括:Archit Sharma、Shubha Raghvendra、Tong He、Pei Sun、Tianhe (Kevin) Yu、Eric Ni、Siamak Shakeri、Hanzhao (Maggie) Lin、Cosmo Du、Sid Lall、Le Hou、Yuan Zhang、Yujing Zhang、Yong Cheng、Luheng He 和 Chenxi Liu。

这项工作由 Quoc Le 和 Pushmeet Kohli 提供指导,项目管理由 Kristen Chiafullo 和 Alex Goldin 负责。

我们还要感谢为数据和评估提供支持的专家:Insuk Seo(负责人)、Jiwon Kang、Donghyun Kim、Junsu Kim、Jimin Kim、Seongbin Jeon、Yoonho Na、Seunghwan Lee、Jihoo Lee、Younghun Jo、Yongsuk Hur、Seongjae Park、Kyuhyeon Choi、Minkyu Choi、Su-Hyeok Moon、Seojin Kim、Yueun Lee、Taehun Kim、Jeeho Ryu、Seungwoo Lee、Dain Kim、Sanha Lee、Hyunwoo Choi、Aiden Jung、Youngbeom Jin、Jeonghyun Ahn、Junhwi Bae、Gyumin Kim、Nam Dung Tran、Quoc Ba Can Vo、Van Huyen Nguyen、Tuan Anh Nguyen、Thanh Dat Vo、Nguyen Nam Hung Tran、Van Khai Luong、Son Vu、Son Tra Dao、Dai Dinh Phong Tran、Thanh Dat Le、Cheng-Chiang Tsai、Kari Ragnarsson、Kiat Chuan Tan、Yahya Tabesh、Hamed Mahdavi、Azin Nazari、Chu-Lan Kao、Steven Creech、Tony Feng、Daogao Liu 和 Ciprian Manolescu。

还要感谢以下人员在支持、协作和建议方面的帮助:Omer Levy、Timothy Lillicrap、Jack Rae、Yifeng Lu、Heng-tze Cheng、Denny Zhou、Ed Chi、Vahab Mirrokni、Tulsee Doshi、Madhavi Sewak、Melvin Johnson、Fernando Pereira、Benoit Schillings、Koray Kavukcuoglu、Oriol Vinyals、Jeff Dean、Demis Hassabis、Sergey Brin、Jessica Lo、Sajjad Zafar、Tom Simpson、Jane Labanowski、Andy Forbes、Sean Nakamoto、Jonathan Lai、Fabian Pedregosa、Samuel Albanie、Alex Zhai、Sara Javanmardi、Divy Thakkar、YaGuang Li、Nigamaa Nayakanti、Chenjie Gu、Chenkai Kuang、Swaroop Mishra、Filipe Miguel de Almeida、Silvio Lattanzi、Ashkan Norouzi Fard、Tal Schuster、Ziwei Ji、Honglu Fan、Xuezhi Wang、Aditi Mavalankar、Tom Schaul、Rosemary Ke、Xiangzhuo Ding、Adam Brown、Emanuel Taropa、Charlie Chen、Joe Stanton、Cip Baetu、Alvin Abdagic、Federico Lebron、Ioana Mihailescu、Soheil Hassas Yeganeh、Ash

最后,我们感谢 IMO Board 的 Gregor Dolinar 教授给予支持和认可。

IMO 已确认,我们提交的答案是完整且正确的解答。需要注意的是,他们的审查并不包括验证我们的系统、流程或底层模型(查看更多)。

原文标题

Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad