中文内容
已翻译professional media英文原文2026-06-01
Cosmos 3 为感知、预测和行动提供支持。
进一步了解 Cosmos 3 的混合 Transformer 架构如何让推理模块先解读场景中正在发生的事情,再利用生成模块借助这些上下文创建符合物理规律的输出,从合成视频到机器人任务数据。
为真实世界机器人任务生成动作数据
Cosmos 3 是一个通用基础模型,基于多样化数据训练,因此能广泛理解场景、运动和机器人动作之间的关系。它是一个具备原生动作生成能力的全能模型,能够生成数值化动作数据,例如关节角度、夹爪位置和轨迹点,用于描述机器人应如何移动以完成任务。
为了学习,机器人需要的不只是场景的图像或视频。例如,对于拾取与放置任务,它们需要动作信号来指导如何在环境中接近、抓取、移动和放置物体。开发者可以对 Cosmos 3 进行微调,使其机器人针对特定机体形态、摄像头布局、工作空间或任务实现专门化。
NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型,帮助具身智能体在游戏、仿真和真实世界机器人环境中学习如何推理、移动和行动。











