元鉴 Yuanjian

中文内容

已翻译professional media英文原文2026-06-01

Cosmos 3 为感知、预测和行动提供支持。

进一步了解 Cosmos 3 的混合 Transformer 架构如何让推理模块先解读场景中正在发生的事情，再利用生成模块借助这些上下文创建符合物理规律的输出，从合成视频到机器人任务数据。

Cosmos 3 是一个通用基础模型，基于多样化数据训练，因此能广泛理解场景、运动和机器人动作之间的关系。它是一个具备原生动作生成能力的全能模型，能够生成数值化动作数据，例如关节角度、夹爪位置和轨迹点，用于描述机器人应如何移动以完成任务。

为了学习，机器人需要的不只是场景的图像或视频。例如，对于拾取与放置任务，它们需要动作信号来指导如何在环境中接近、抓取、移动和放置物体。开发者可以对 Cosmos 3 进行微调，使其机器人针对特定机体形态、摄像头布局、工作空间或任务实现专门化。

NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型，帮助具身智能体在游戏、仿真和真实世界机器人环境中学习如何推理、移动和行动。