元鉴
返回中文阅读流

NVIDIA Newsroom

NVIDIA 推出 Cosmos 3:面向物理 AI 的开放前沿基础模型

NVIDIA Cosmos 3 是新的开放物理 AI 基础模型,采用 mixture-of-transformers 架构,支持视觉推理、多模态生成和动作生成。

中文内容

已翻译professional media英文原文2026-06-01

新闻摘要:

  • NVIDIA Cosmos 3 是一个新的、在排行榜上名列前茅的开放物理 AI 基础模型,基于突破性的 mixture-of-transformers 架构构建,用于物理 AI 推理、世界模拟和动作生成。
  • Cosmos 3 是全球首个完全开放的 omnimodel,具备原生视觉推理能力,并可跨文本、图像、视频、环境声音和动作进行多模态生成,用于先进的合成数据生成和物理 AI 策略模型开发。
  • NVIDIA 与领先 AI 实验室和机器人领域领军者共同发起 NVIDIA Cosmos Coalition,包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI,以推进下一代开放世界模型。

NVIDIA GTC Taipei——NVIDIA 今日推出 NVIDIA Cosmos™ 3,这是一个面向物理 AI 的开放世界基础模型,基于突破性的 mixture-of-transformers 架构构建,将视觉推理、世界生成和动作预测整合在一个系统中。

Cosmos 3 是全球首个完全开放的 omnimodel,能够原生理解并生成文本、图像、视频、环境声音和动作,并具备领先的物理准确性,将物理 AI 的训练和评估周期从数月缩短至数天。

NVIDIA 还推出了 NVIDIA Cosmos Coalition,这是一个由世界模型构建者和 AI 开发者组成的全球合作项目,包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI,共同推进下一代世界模型。

NVIDIA 创始人兼首席执行官 Jensen Huang 表示:“得益于多模态推理语言、视觉和世界模型的突破,物理 AI 的大爆发即将到来。Cosmos 3 系列开放前沿 omnimodel 让开发者在构建能够在物理世界中感知、推理、规划和行动的机器人、自动驾驶汽车和视觉 AI 方面实现代际跃升。”

面向物理 AI 的新架构 Cosmos 3 解决了物理 AI 中的一项根本挑战:让机器人、自动驾驶车辆(AV)或视觉代理能够在训练数据有限、仿真栈碎片化的情况下,在真实世界中实现泛化。

该模型的 mixture-of-transformers 架构将推理 transformer 与专家生成 transformer 配对,使 Cosmos 3 能够在生成视频和动作轨迹之前理解物体交互、运动以及时空关系。

该模型基于规模最大的多模态物理 AI 数据集之一进行训练,其中包括跨文本、图像、视频、声音和动作轨迹的数十亿个样本,为开发者构建物理 AI 系统提供了强大的预训练基础,并可减少所需数据量、降低训练成本。

开发者可以将 Cosmos 3 用作:

  • 一个能够跨模态理解和推理的视觉语言模型。
  • 一个世界模型或视频基础模型,用于模拟物理环境并预测未来世界状态,以支持训练和评估。
  • 世界动作模型的主干,用于帮助训练机器人执行特定任务。

Cosmos 3 模型在物理 AI 基准测试中取得领先结果。在开放模型中,它在 Artificial Analysis、Physics-IQ、PAI-Bench 和 R-Bench 的世界生成准确性方面排名第一,在 RoboLab 和 RoboArena 的动作策略方面排名第一,并在 VANTAGE-Bench 和 TAR 排行榜的视觉理解方面排名第一。

Cosmos 3 产品线为开发者在物理 AI 开发的不同阶段提供选择:

  • Cosmos 3 Super,用于需要最高物理准确性和生成质量的后训练机器人与 AV 模型。
  • Cosmos 3 Nano,用于在几分之一秒内实现高质量视频和动作推理。
  • Cosmos 3 Edge 即将推出,用于边缘端实时推理。

Cosmos Coalition 加速开放世界模型开发 Cosmos Coalition 是世界模型构建者、AI 开发者和物理 AI 领军者之间的全球合作,旨在推动各行业的开放世界模型发展,使成员能够贡献模型、研究和评估技术,同时使用 Cosmos 3 技术、训练工具和 NVIDIA DGX™ Cloud 基础设施进行大规模训练。

联盟创始成员包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI。通过开放构建并在共享生态系统中贡献成果,该联盟旨在实现更快创新、更广泛互操作性以及物理 AI 更快速发展。

开发者基于 Cosmos 进行构建 Cosmos 平台为 NVIDIA 的物理 AI 技术栈提供支持,以加速各行业的训练和评估工作流。该平台现已包括用于机器人、物理、人类运动、自动驾驶、仓库安全和空间推理的新数据集,以及用于神经场景重建、缺陷图像生成和视频增强的新物理 AI 代理技能。

各行业的物理 AI 开发者正在基于 Cosmos 平台进行构建,包括用于机器人的 Agile Robots、Doosan Robotics、LG Electronics、Samsung Electronics 和 Skild AI,用于 AV 的 Li Auto,以及用于视觉 AI 代理的 Centific、Fogsphere、Linker Vision、Milestone Systems 和 Yuan,以支持工业 AI 和智能空间应用。

可用性 Cosmos 3 Super 和 Cosmos 3 Nano 现已可用,Cosmos 3 Edge 即将推出用于实时推理。开发者可以在 build.nvidia.com 试用 Cosmos 3,从 Hugging Face 下载开放模型,使用 Hugging Face Diffusers 和 GitHub 上的资源定制模型并生成合成数据,并将模型部署为 NVIDIA NIM™ 微服务。

模型构建者和软件提供商可以通过 GitHub 上的物理 AI 代理技能,并借助推理服务和云基础设施合作伙伴,包括 Baseten、CoreWeave、Microsoft Azure、Nebius、Deep Infra 和 Classmethod,加速 Cosmos 在关键推理和合成数据生成工作负载中的访问、定制和部署。

观看 Huang 的主题演讲,了解更多 NVIDIA GTC Taipei 信息,并探索这些物理 AI 会议。

原文标题

NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI