元鉴
返回中文阅读流

NVIDIA Newsroom

Cosmos 3 如何帮助物理 AI 在行动前思考

来自 NVIDIA Newsroom 的最新公开更新。

中文内容

已翻译professional media英文原文2026-06-01

Cosmos 3 为感知、预测和行动提供支持。

进一步了解 Cosmos 3 的混合 Transformer 架构如何让推理模块先解读场景中正在发生的事情,再利用生成模块借助这些上下文创建符合物理规律的输出,从合成视频到机器人任务数据。

为真实世界机器人任务生成动作数据

Cosmos 3 是一个通用基础模型,基于多样化数据训练,因此能广泛理解场景、运动和机器人动作之间的关系。它是一个具备原生动作生成能力的全能模型,能够生成数值化动作数据,例如关节角度、夹爪位置和轨迹点,用于描述机器人应如何移动以完成任务。

为了学习,机器人需要的不只是场景的图像或视频。例如,对于拾取与放置任务,它们需要动作信号来指导如何在环境中接近、抓取、移动和放置物体。开发者可以对 Cosmos 3 进行微调,使其机器人针对特定机体形态、摄像头布局、工作空间或任务实现专门化。

NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型,帮助具身智能体在游戏、仿真和真实世界机器人环境中学习如何推理、移动和行动。

原文标题

How Cosmos 3 Helps Physical AI Think Before It Acts