中文内容

已翻译official company source英文原文2025-11-13

November 13, 2025 Research

SIMA 2：在虚拟 3D 世界中与你一起游玩、推理和学习的智能体

SIMA 团队

去年，我们推出了 SIMA（Scalable Instructable Multiworld Agent，可扩展可指令多世界智能体），这是一种通用型 AI，能够在多种虚拟环境中遵循基本指令。SIMA 是教会 AI 在丰富的 3D 世界中将语言转化为有意义行动的关键第一步。

今天，我们推出 SIMA 2，这是我们在创建通用且有用的 AI 智能体研究中的下一个里程碑。通过整合 Gemini 模型的先进能力，SIMA 正在从指令执行者演进为交互式游戏伙伴。SIMA 2 不仅能够在虚拟世界中遵循人类语言指令，现在还可以思考自己的目标、与用户对话，并随着时间推移自我改进。

这是迈向通用人工智能（AGI）的重要一步，对机器人技术和更广泛意义上的 AI 具身化未来具有重要影响。

第一版 SIMA 学会了在多种商业视频游戏中执行 600 多项语言跟随技能，例如“左转”“爬梯子”和“打开地图”。它在这些环境中的操作方式类似人类：通过“观察”屏幕并使用虚拟键盘和鼠标进行导航，而不访问底层游戏机制。

借助 SIMA 2，我们已经超越了指令跟随。通过将 Gemini 模型嵌入为智能体核心，SIMA 2 不再只是响应指令，还能对指令进行思考和推理。

SIMA 2 的新架构整合了 Gemini 强大的推理能力，帮助它理解用户的高层目标，围绕目标进行复杂推理，并在游戏中熟练执行面向目标的行动。

我们使用带语言标签的人类演示视频以及 Gemini 生成的标签混合训练了 SIMA 2。因此，SIMA 2 现在能够向用户描述它打算做什么，并详细说明为实现目标正在采取的步骤。

Slide 1 of 3

在测试中，我们发现与该智能体互动的感觉不再像是在向它下达命令，而更像是与一位能够围绕当前任务进行推理的伙伴协作。

得益于我们与现有及新游戏合作伙伴的合作（见“致谢”），我们得以在更广泛的游戏阵列上训练和评估 SIMA 2。

这就是 Gemini 赋予具身 AI 的力量：一个世界级推理引擎，如今能够在复杂、交互式 3D 环境中感知、理解并采取行动。

Slide 1 of 4

Gemini 的加入也带来了泛化能力和可靠性的提升。与前代相比，SIMA 2 现在能够理解更复杂、更细微的指令，并且执行成功率高得多，尤其是在它从未接受过训练的情境或游戏中，例如新的维京生存游戏 ASKA，或 MineDojo——热门开放世界沙盒游戏 Minecraft 的研究实现。

Slide 1 of 4

Slide 1 of 3