中文内容
下一代 AI 驱动的机器人,如人形机器人和自动驾驶车辆,依赖高保真、具备物理感知能力的训练数据。若缺乏多样且具有代表性的数据集,这些系统就无法获得适当训练,并会因泛化能力差、对现实世界变化的接触有限以及在边缘情况下行为不可预测而面临测试风险。收集用于训练的大规模真实世界数据集成本高昂、耗时很长,并且往往受到可行性的限制。
NVIDIA Cosmos 通过加速世界基础模型(WFM)开发来应对这一挑战。作为其平台的核心,Cosmos WFM 加快合成数据生成,并作为后训练的基础,用于开发下游特定领域或特定任务的物理 AI 模型,以解决这些挑战。本文探讨最新的 Cosmos WFM、其推进物理 AI 的关键能力以及如何使用它们。
Cosmos 世界基础模型更新:
NVIDIA Cosmos 世界基础模型持续快速演进,取得了显著进展,进一步加速了合成数据生成和物理 AI 开发。推出一年后,关键更新包括:
- Cosmos Transfer 2.5——基于仿真和 3D 空间输入,实现更快且更具可扩展性的数据增强,从而在环境、光照条件和场景变化方面实现更大的多样性。
- Cosmos Predict 2.5——增强了最长 30 秒序列的长尾场景生成能力,在专有数据或特定领域数据上进行后训练时,可实现最高 10 倍的准确率提升。支持多视角输出、自定义摄像机布局,以及动作仿真等替代策略输出。
- Cosmos Reason 2——先进的物理 AI 推理,具备改进的时空理解能力和时间戳精度。新增具备 2D/3D 点定位和边界框坐标的目标检测,以及推理解释和标签。扩展了长上下文支持,最高可达 256K 输入 token。
用于生成基于物理的照片级真实感视频的 Cosmos Transfer
Cosmos Transfer 可根据结构化输入生成高保真世界场景,确保精确的空间对齐和场景构图。
Cosmos Transfer 采用 ControlNet 架构,保留了预训练知识,从而能够生成结构化且一致的输出。它利用时空控制图动态对齐合成表示与真实世界表示,从而能够对场景构图、物体放置和运动动态进行细粒度控制。
输入:
- 结构化视觉或几何数据:分割图、深度图、边缘图、人体运动关键点、LiDAR 扫描、轨迹、HD 地图和 3D 边界框。
- 真值标注:用于精确对齐的高保真参考。
输出:具有受控布局、对象放置和运动的照片级真实视频序列。


图 1。左侧是在 NVIDIA Omniverse 中创建的虚拟仿真或“真值”。右侧是使用 Cosmos Transfer 进行的照片级真实转换。
关键能力:
- 生成可扩展、照片级真实的合成数据,并与现实世界物理规律保持一致。
- 通过结构化的多模态输入控制物体交互和场景构成。
使用 Cosmos Transfer 生成可控的合成数据
借助生成式 AI API 和 SDK,NVIDIA Omniverse 加速物理 AI 仿真。开发者使用基于 OpenUSD 构建的 NVIDIA Omniverse 创建 3D 场景,准确模拟现实世界环境,用于训练和测试机器人及自动驾驶车辆。这些仿真作为 Cosmos Transfer 的真实标注视频输入,并结合注释和文本指令。Cosmos Transfer 在改变环境、光照和视觉条件的同时增强照片级真实感,以生成可扩展、多样化的世界状态。
该工作流加速了高质量训练数据集的创建,确保 AI 智能体能够有效地从仿真泛化到真实世界部署。


Cosmos Transfer 通过在 Isaac GR00T Blueprint 中为合成操控运动生成提供逼真的光照、颜色和纹理,以及在 Omniverse Blueprint for Autonomous Vehicle Simulation 中为训练提供不同环境和天气条件,从而增强机器人开发能力。这些照片级真实感数据对于后训练策略模型至关重要,可确保从仿真到现实的平稳迁移,并支持用于感知 AI 和 GR00T N1 等专用机器人模型的模型训练。
如何运行新的 Cosmos Transfer 2.5:
- 要在新的 Cosmos Transfer 2.5 上运行推理,请遵循推理指南。
- 要在专有数据或领域数据上进行后训练,请遵循后训练指南。
- 探索 NVIDIA Cosmos Cookbook,了解来自 Cosmos 用户的分步工作流和技术方案。
用于生成未来世界状态的 Cosmos Predict
Cosmos Predict WFM 旨在根据多模态输入(包括文本、视频以及起止帧序列)将未来世界状态建模为视频。它采用基于 Transformer 的架构构建,可增强时间一致性和帧插值效果。
关键功能:
- 可直接根据文本提示生成逼真的世界状态。
- 通过预测缺失帧或延展运动,基于视频序列预测后续状态。
- 在起始图像和结束图像之间生成多帧,创建完整、平滑的序列。
Cosmos Predict WFM 为训练机器人和自动驾驶汽车领域的下游世界模型提供了坚实基础。你可以对这些模型进行后训练,使其生成动作而非视频,用于策略建模;也可以将其适配用于视觉-语言理解,以创建定制的感知 AI 模型。
如何运行新的 Cosmos Predict 2.5:
- 要在新的 Cosmos Predict 2.5 上运行推理,请遵循推理指南。
- 要基于专有数据或领域数据进行后训练,请遵循后训练指南。
- 探索 NVIDIA Cosmos Cookbook,获取来自 Cosmos 用户的分步工作流和技术方案。
Cosmos Reason 用于感知、推理并智能响应
Cosmos Reason 是一款完全可定制的多模态 AI 推理模型,专为理解运动、物体交互以及时空关系而构建。通过使用思维链(CoT)推理,该模型能够解读视觉输入,根据给定提示预测结果,并奖励最优决策。与基于文本的 LLM 不同,它将推理建立在现实世界物理规律之上,以自然语言生成清晰、具备上下文感知能力的回应。
输入:视频观察以及基于文本的查询或指令。输出:通过长时程 CoT 推理生成的文本回应。
关键能力:
- 了解物体如何移动、交互并随时间变化。
- 根据输入观察预测并奖励下一个最佳动作。
- 持续优化决策过程。
- 专为训练后阶段而构建,用于打造感知 AI 和具身 AI 模型。
训练流程
Cosmos Reason 经过三个阶段的训练,增强其在真实世界场景中进行推理、预测并响应决策的能力。
- 预训练:使用 Vision Transformer (ViT) 将视频帧处理为结构化嵌入,并将其与文本对齐,以形成对物体、动作和空间关系的共同理解。
- 监督微调(SFT):使模型在两个关键层面上专门进行物理推理。通用微调使用多样化的视频-文本数据集来增强语言落地和多模态感知,而针对物理 AI 数据的进一步训练则强化模型对真实世界交互进行推理的能力。它学习物体行为,例如物体在真实世界中的使用方式;动作序列,即判断多步骤任务如何展开;以及空间可行性,以区分现实可行的放置方式和不可能的放置方式。

强化学习(RL):模型评估不同的推理路径,并且只有在通过试错和奖励反馈产生更优决策时才更新自身。它不依赖人工标注数据,而是使用基于规则的奖励:
- 实体识别:奖励对对象及其属性的准确识别。
- 空间约束:惩罚物理上不可能的放置,同时强化符合现实的对象定位。
- 时间推理:鼓励基于因果关系进行正确的序列预测。
如何运行新的 Cosmos Reason 2:
- 要在新的 Cosmos Reason 2 上运行推理,请遵循推理指南。
- 要在专有数据或领域数据上进行后训练,请遵循后训练指南。
- 探索 NVIDIA Cosmos Cookbook,了解 Cosmos 用户提供的分步工作流程和技术方案。
开始使用
- 访问我们的 Cosmos Cookbook,获取用于构建、适配和部署 Cosmos WFM 的分步工作流程、技术方案和具体示例。
- 在 Hugging Face 和 GitHub 上探索新的开放 Cosmos 模型和数据集,或在 build.nvidia.com 上试用模型。
- 加入社区并加入我们的 Cosmos Discord 频道。
- 已经在使用 Cosmos?了解更多关于如何贡献的信息。
- 观看 NVIDIA 创始人兼首席执行官 Jensen Huang 的 GTC 主题演讲,并探索 Cosmos 相关会议。
2026 年 3 月 13 日更新,包含 NVIDIA Cosmos 世界基础模型的进展。
标签














