元鉴
返回中文阅读流

Google DeepMind Blog

SIMA 2:在虚拟 3D 世界中与你一起游玩、推理和学习的智能体

介绍 SIMA 2:由 Gemini 驱动、能在交互环境中思考、理解并采取行动的 AI 智能体。

中文内容

已翻译official company source英文原文2025-11-13
November 13, 2025 Research

SIMA 2:在虚拟 3D 世界中与你一起游玩、推理和学习的智能体

SIMA 团队

A four-column representation of SIMA 2, a Gemini-powered AI agent, acting within a 3D virtual environment.

去年,我们推出了 SIMA(Scalable Instructable Multiworld Agent,可扩展可指令多世界智能体),这是一种通用型 AI,能够在多种虚拟环境中遵循基本指令。SIMA 是教会 AI 在丰富的 3D 世界中将语言转化为有意义行动的关键第一步。

今天,我们推出 SIMA 2,这是我们在创建通用且有用的 AI 智能体研究中的下一个里程碑。通过整合 Gemini 模型的先进能力,SIMA 正在从指令执行者演进为交互式游戏伙伴。SIMA 2 不仅能够在虚拟世界中遵循人类语言指令,现在还可以思考自己的目标、与用户对话,并随着时间推移自我改进。

这是迈向通用人工智能(AGI)的重要一步,对机器人技术和更广泛意义上的 AI 具身化未来具有重要影响。

  • 推理
  • 泛化
  • 自我改进
  • 下一步
  • 责任

推理的力量

第一版 SIMA 学会了在多种商业视频游戏中执行 600 多项语言跟随技能,例如“左转”“爬梯子”和“打开地图”。它在这些环境中的操作方式类似人类:通过“观察”屏幕并使用虚拟键盘和鼠标进行导航,而不访问底层游戏机制。

借助 SIMA 2,我们已经超越了指令跟随。通过将 Gemini 模型嵌入为智能体核心,SIMA 2 不再只是响应指令,还能对指令进行思考和推理。

Your browser does not support the video tag. Your browser does not support the video tag.
MineDojo:SIMA 1(左)尝试遵循指令,而 SIMA 2(右)在一款从未见过的游戏中成功完成任务。
Your browser does not support the video tag. Your browser does not support the video tag.
ASKA:SIMA 1(左)尝试遵循“Find a campfire(寻找营火)”这一指令,而 SIMA 2(右)在一款从未见过的游戏中成功完成任务。

SIMA 2 的新架构整合了 Gemini 强大的推理能力,帮助它理解用户的高层目标,围绕目标进行复杂推理,并在游戏中熟练执行面向目标的行动。

我们使用带语言标签的人类演示视频以及 Gemini 生成的标签混合训练了 SIMA 2。因此,SIMA 2 现在能够向用户描述它打算做什么,并详细说明为实现目标正在采取的步骤。

Slide 1 of 3
Your browser does not support the video tag. Your browser does not support the video tag.
超越简单的指令跟随:SIMA 2 能够回答用户的问题,也能对自身行为以及所处环境进行推理。
Your browser does not support the video tag. Your browser does not support the video tag.
超越简单的指令跟随:SIMA 2 能够回答用户的问题,也能对自身行为以及所处环境进行推理。
Your browser does not support the video tag. Your browser does not support the video tag.
超越简单的指令跟随:SIMA 2 能够回答用户的问题,也能对自身行为以及所处环境进行推理。

在测试中,我们发现与该智能体互动的感觉不再像是在向它下达命令,而更像是与一位能够围绕当前任务进行推理的伙伴协作。

得益于我们与现有及新游戏合作伙伴的合作(见“致谢”),我们得以在更广泛的游戏阵列上训练和评估 SIMA 2。

这就是 Gemini 赋予具身 AI 的力量:一个世界级推理引擎,如今能够在复杂、交互式 3D 环境中感知、理解并采取行动。

Slide 1 of 4
Your browser does not support the video tag. Your browser does not support the video tag.
Your browser does not support the video tag. Your browser does not support the video tag.
SIMA 2 通过对环境和用户意图进行推理,来解读抽象概念和逻辑指令。
Your browser does not support the video tag. Your browser does not support the video tag.
SIMA 2 通过对环境和用户意图进行推理,来解读抽象概念和逻辑指令。
Your browser does not support the video tag. Your browser does not support the video tag.
SIMA 2 通过对环境和用户意图进行推理,来解读抽象概念和逻辑指令。

泛化性能的飞跃

Gemini 的加入也带来了泛化能力和可靠性的提升。与前代相比,SIMA 2 现在能够理解更复杂、更细微的指令,并且执行成功率高得多,尤其是在它从未接受过训练的情境或游戏中,例如新的维京生存游戏 ASKA,或 MineDojo——热门开放世界沙盒游戏 Minecraft 的研究实现。

SIMA 2 能够理解并完成漫长而复杂的任务

Slide 1 of 4
Your browser does not support the video tag. Your browser does not support the video tag.
SIMA 2 能够成功执行漫长而复杂的指令。
Your browser does not support the video tag. Your browser does not support the video tag.
SIMA 2 在没有任何预先训练的情况下应对一款全新游戏,展现出令人印象深刻的进展。
Your browser does not support the video tag. Your browser does not support the video tag.
SIMA 2 能够成功执行漫长而复杂的指令。
Your browser does not support the video tag. Your browser does not support the video tag.

SIMA 2 理解多模态提示

Slide 1 of 3
Your browser does not support the video tag. Your browser does not support the video tag.
用户正在屏幕上绘制草图。
Your browser does not support the video tag. Your browser does not support the video tag.
用户正在屏幕上绘制草图。
Your browser does not support the video tag. Your browser does not support the video tag.

原文标题

SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds