中文内容
重新思考我们如何衡量 AI 智能
2025 年 8 月 4 日
·Game Arena 是一个新的开源平台,用于严谨评估 AI 模型。它允许在胜负条件明确的环境中,对前沿系统进行正面对比。
概述
当前的 AI 基准测试难以跟上现代模型的发展步伐。Google DeepMind 和 Kaggle 正在推出 Kaggle Game Arena,这是一个公开的 AI 基准测试平台,AI 模型将在其中进行策略游戏对抗。请于太平洋时间 8 月 5 日上午 10:30 观看国际象棋表演赛,并关注未来更多锦标赛。
Summaries were generated by Google AI. Generative AI is experimental.
当前的 AI 基准测试正难以跟上现代模型的发展步伐。尽管这些基准有助于衡量模型在特定任务上的表现,但很难判断基于互联网数据训练的模型是在真正解决问题,还是只是在记住它们已经见过的答案。随着模型在某些基准上的成绩接近 100%,这些基准在揭示有意义的性能差异方面也变得不那么有效。我们会继续投入新的、更具挑战性的基准测试,但在通往通用智能的道路上,我们需要持续寻找新的评估方式。近期转向动态、由人类评判的测试,解决了记忆化和饱和的问题,但同时也带来了源自人类偏好固有主观性的新困难。
在继续发展并推进现有 AI 基准测试的同时,我们也一直在探索评估模型的新方法。因此,今天我们推出 Kaggle Game Arena:一个新的公开 AI 基准测试平台,AI 模型将在策略游戏中进行正面对抗,从而为其能力提供可验证且动态的衡量。
为什么游戏是有意义的评估基准
游戏为成功提供了清晰、明确的信号。其结构化特征和可衡量的结果,使其成为评估模型和智能体的理想测试场。游戏迫使模型展示多种技能,包括战略推理、长期规划,以及面对智能对手时的动态适应能力,从而为其通用问题解决智能提供稳健信号。游戏作为基准的价值还因其可扩展性而进一步增强——难度会随着对手智能水平提升而增加——同时我们还能够检查并可视化模型的“推理”,从中一窥其战略思考过程。
多年来,Stockfish 等专用引擎以及 AlphaZero 等通用游戏 AI 模型已经能够以超人水平进行游戏,并且毫无疑问会击败所有前沿模型。然而,今天的大语言模型并不是为专门擅长任何特定游戏而构建的,因此它们在这些游戏中的表现远不及前者。对这些模型而言,眼前的挑战是缩小这一差距;从长期来看,我们希望它们能达到超越当前可能水平的游戏能力。随着全新环境集合不断扩展,我们还可以继续进一步挑战它们。
Game Arena 如何促进公平、开放的评估
Game Arena 构建在 Kaggle 之上,为模型评估提供公平、标准化的环境。为确保透明度,游戏 harness——即将每个 AI 模型连接到游戏环境并执行规则的框架——以及游戏环境本身都已开源。最终排名由严谨的全员互赛系统决定,在该系统中,每一对模型之间进行大量比赛,以确保结果在统计上稳健。
Google DeepMind 长期以来一直使用游戏作为基准,从 Atari 到 AlphaGo 和 AlphaStar,用以展示复杂的 AI 能力。通过在竞技场中测试这些模型,我们可以为它们的战略推理能力建立清晰的基线,并跟踪进展。目标是构建一个不断扩展的基准,随着模型面对更强竞争而提高难度。随着时间推移,这可能带来新的策略,就像 AlphaGo 著名且富有创造性的“第 37 手”曾令人类专家困惑一样。在游戏中承受压力时进行规划、适应和推理的能力,与解决科学和商业复杂挑战所需的思维方式具有相似性。
如何观看国际象棋表演赛
太平洋时间 8 月 5 日上午 10:30,请加入我们观看一场特别的国际象棋表演赛,八个前沿模型将在单败淘汰对决中交锋。我们为此次表演赛从比赛中选取了一个样本。该活动由世界顶级国际象棋专家主持,是 Game Arena 方法论的首次展示。
虽然趣味表演赛采用锦标赛形式,但最终排行榜排名将由全员互赛系统决定,并在表演赛后发布。这种更全面的方法会在每一对模型之间运行一百多场比赛,以确保对性能进行统计上稳健且明确的衡量。你可以在 kaggle.com/game-arena 查看更多详情以及观看比赛的方式。
我们计划今后定期举办更多锦标赛,相关信息将很快公布。
我们如何构建 AI 基准测试的未来
这只是开始。我们对 Game Arena 的愿景远不止于单个游戏。Kaggle 很快将通过新的挑战扩展 Game Arena,首先从围棋和扑克等经典游戏开始。这些游戏以及未来新增的视频游戏等内容,都是测试 AI 进行长时域规划和推理能力的优秀方式,有助于我们创建一个全面且不断演进的 AI 基准。我们致力于持续加入新的模型和 harness,推动 AI 模型能力边界。有关 Game Arena 和首届国际象棋表演锦标赛的更多详情,请参阅 Kaggle 的博客文章。
- AI 产品
- 正文:Google DeepMind








