中文内容
SIMA 2:在虚拟 3D 世界中与你一起游玩、推理和学习的智能体
SIMA 团队
去年,我们推出了 SIMA(Scalable Instructable Multiworld Agent,可扩展可指令多世界智能体),这是一种通用型 AI,能够在多种虚拟环境中遵循基本指令。SIMA 是教会 AI 在丰富的 3D 世界中将语言转化为有意义行动的关键第一步。
今天,我们推出 SIMA 2,这是我们在创建通用且有用的 AI 智能体研究中的下一个里程碑。通过整合 Gemini 模型的先进能力,SIMA 正在从指令执行者演进为交互式游戏伙伴。SIMA 2 不仅能够在虚拟世界中遵循人类语言指令,现在还可以思考自己的目标、与用户对话,并随着时间推移自我改进。
这是迈向通用人工智能(AGI)的重要一步,对机器人技术和更广泛意义上的 AI 具身化未来具有重要影响。
- 推理
- 泛化
- 自我改进
- 下一步
- 责任
推理的力量
第一版 SIMA 学会了在多种商业视频游戏中执行 600 多项语言跟随技能,例如“左转”“爬梯子”和“打开地图”。它在这些环境中的操作方式类似人类:通过“观察”屏幕并使用虚拟键盘和鼠标进行导航,而不访问底层游戏机制。
借助 SIMA 2,我们已经超越了指令跟随。通过将 Gemini 模型嵌入为智能体核心,SIMA 2 不再只是响应指令,还能对指令进行思考和推理。




SIMA 2 的新架构整合了 Gemini 强大的推理能力,帮助它理解用户的高层目标,围绕目标进行复杂推理,并在游戏中熟练执行面向目标的行动。
我们使用带语言标签的人类演示视频以及 Gemini 生成的标签混合训练了 SIMA 2。因此,SIMA 2 现在能够向用户描述它打算做什么,并详细说明为实现目标正在采取的步骤。






在测试中,我们发现与该智能体互动的感觉不再像是在向它下达命令,而更像是与一位能够围绕当前任务进行推理的伙伴协作。
得益于我们与现有及新游戏合作伙伴的合作(见“致谢”),我们得以在更广泛的游戏阵列上训练和评估 SIMA 2。
这就是 Gemini 赋予具身 AI 的力量:一个世界级推理引擎,如今能够在复杂、交互式 3D 环境中感知、理解并采取行动。








泛化性能的飞跃
Gemini 的加入也带来了泛化能力和可靠性的提升。与前代相比,SIMA 2 现在能够理解更复杂、更细微的指令,并且执行成功率高得多,尤其是在它从未接受过训练的情境或游戏中,例如新的维京生存游戏 ASKA,或 MineDojo——热门开放世界沙盒游戏 Minecraft 的研究实现。
SIMA 2 能够理解并完成漫长而复杂的任务








SIMA 2 理解多模态提示






原文标题
SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds