中文内容
在 CVPR 上,NVIDIA 正在发布新的物理 AI 智能体技能,帮助研究人员和开发者加速自动驾驶汽车、机器人和视觉 AI 系统的开发。
物理 AI 研究的核心挑战并不只是开发更强大的模型,而是围绕这些模型构建一套完整的工作流程——重建真实世界场景、生成边缘案例场景、训练策略、评估行为并快速迭代。如今,这些步骤分散在不同工具中,研究人员难以将它们整合在一起,从而拖慢了实验进度。
本周早些时候,NVIDIA 发布了 NVIDIA Cosmos 3,这是面向物理 AI 的开放前沿模型,也是全球首个统一视觉推理、世界生成和动作生成的完整全能模型。作为在物理 AI 核心开放模型公开排行榜上处于领先地位的世界基础模型,它为物理 AI 开发提供了核心能力。NVIDIA 物理 AI 技能与 Cosmos、NVIDIA 库和仿真框架相结合,帮助研究人员以前所未有的速度从模型能力迈向可扩展的端到端工作流程。
推动自动驾驶汽车研究超越已记录里程
对于自动驾驶汽车研究人员来说,问题在于驾驶中的“长尾”场景——罕见的交互、异常的道路几何形态、光照变化以及边缘案例行为,这些都难以反复采集,但对训练和验证至关重要。
OpenClaw 中的 Neural Reconstruction 技能演示,展示了从一个升高的虚拟传感器视角重新渲染的视频。
借助 NVIDIA 自动驾驶汽车技能,研究人员和开发者可以指派 AI agent 自动化处理从车队数据进行场景重建以及生成合成场景的工作流。Neural Reconstruction 技能帮助 AI agent 将车队采集的数据转化为可编辑的 3D 场景,用于仿真和合成数据生成;而包括 NVIDIA Omniverse NuRec、InstantNuRec、Harmonizer 和 HiGS accelerated renderer 在内的技术,则有助于加速重建、提升场景真实感并生成新视角。
InstantNuRec 能够基于图像快速进行 3D Gaussian 道路场景重建,无需针对每个场景进行优化。
对于自动驾驶汽车(AV)研究人员而言,可重复的仿真有助于改变条件、比较系统响应,并在超出现实世界数据可捕捉范围的各种场景中发现失效模式。
NVIDIA AlpaGym 是一个开源闭环强化学习框架,通过将策略 rollout 和高保真仿真与智能体技能相连接,并在数千个 GPU 上扩展,帮助研究人员完成设置、rollout 和评估。NVIDIA OmniDreams 是一个以动作为条件的生成式世界模型,为仿真循环加入照片级真实感渲染,生成能够实时直接响应策略动作的摄像头帧。
NVIDIA 还在通过迄今为止其最强大的开放驾驶基础模型推进自动驾驶汽车研究:NVIDIA Alpamayo 2 Super,这是一个开放的 320 亿参数推理型视觉语言动作(VLA)模型,能够在完整驾驶栈中进行推理、规划和行动,以实现更安全、可扩展的 L4 级开发与部署。
推进面向现实世界的视觉 AI 系统
对于视觉 AI 研究而言,瓶颈在于创建足够多的受控示例,以研究当视觉条件、物体状态或时间事件发生变化时模型的行为。零样本异常检测、合成异常生成和少样本缺陷识别方面的工作都面临同样的数据瓶颈。
用于视觉检测的新技能可在不同表面上生成多种罕见缺陷。
新的 NVIDIA Metropolis 技能正在帮助研究人员和开发者使用 AI 智能体生成合成视觉场景,包括异常场景、数据增强以及对伪标注的支持。这些技能受益于 Cosmos 3 的混合 Transformer 架构,该架构使用推理 Transformer 来分析观测结果,并向生成塔提供指令,从而帮助扩展具有物理基础的虚拟世界。
构建高精度视觉检测模型的研究人员可以使用 Defect Image Generation 技能,基于真实图像创建跨不同表面的不同缺陷示例。该工作流程结合了用于仿真的 NVIDIA Isaac Sim、Cosmos 3 以及用于编排和视觉语言推理的 NVIDIA OSMO,使研究人员能够创建罕见视觉案例,并评估模型是否能正确响应。
新的 NVIDIA Metropolis VSS Blueprint 技能可从海量视频数据中提取洞察。
对于视频 AI Agent,NVIDIA Metropolis Blueprint for video search and summarization(VSS)、NVIDIA TAO 和 Video Augmentation 技能可帮助从海量视频数据中提取洞察、微调模型,并自动化构建与评估循环。这为研究人员提供了一种更可重复的方法,用于开发具备推理能力的视觉 AI Agent,使其能够检测事件、对复杂场景进行推理、总结活动并发送警报。
通过面向 Agent 的仿真工作流扩展机器人学习
教授机器人导航或操作等技能,归根结底依赖于迭代。对于研究人员而言,瓶颈在于构建足够多的受控环境和策略 rollout,以了解机器人行为如何随任务、设置和具身形态而变化——这项工作通常意味着需要手动拼接仿真环境、任务变体、策略训练和评估。
NVIDIA Isaac Sim 6.0 包含面向智能体的技能和连接器,以帮助自动化工作流程。
借助 NVIDIA 机器人技能,研究人员可以指示 AI 智能体通过 NVIDIA Omniverse 库、Isaac Sim 和 Isaac Lab 框架,自动化场景准备、仿真和机器人学习中的大多数常见开发步骤。智能体可以在 Isaac Sim 中帮助启动仿真会话、编写场景、控制仿真、采集数据并验证环境,而 Isaac Lab 技能则支持强化学习设置、训练、评估和自定义环境开发。
新的 NVIDIA Isaac 移动技能可自动化导航工作流程。
专门技能将该工作流程扩展到移动和操作。Isaac 移动技能支持涵盖场景搜索、USD 转换、环境注册、残差强化学习和策略评估的导航工作流程,而专门的 Isaac Lab 智能体工作流程则有助于完成 sim-to-sim 和 sim-to-real 任务,例如环境构建、物理调优、调试和性能分析。
在医疗机器人领域,Cosmos-H-Surgical-Simulator 通过生成逼真的手术机器人数据,用于策略训练和评估,从而推动研究发展。它直接从真实手术数据中学习,而不是依赖手工设计的物理模型,有助于缩小仿真到现实的差距,支持自主手术任务的开发。
Cosmos 3 还可以进一步帮助生成合成数据和场景变化,并利用特定具身形态的行为和环境数据支持后训练,适用于从拾取放置到灵巧操作等任务。
NVIDIA Research 在 CVPR
NVIDIA 技术——包括 GPU、开放模型、仿真框架和 CUDA 加速库——被大多数获 CVPR 2026 接收的论文引用,并在全球领先研究实验室和机构中得到采用,包括 Carnegie Mellon University、Stanford University、UC Berkeley、Tsinghua University 和 Peking University。
NVIDIA 研究人员将在 6 月 3 日至 7 日于丹佛举行的 CVPR 上展示涵盖计算机视觉、物理 AI、自主系统、神经渲染、生成式 AI 和机器人技术的研究成果。
NVIDIA 在 CVPR 的活动还包括开放研究挑战,帮助评测物理 AI 的进展:
- AI City Challenge 是一项面向智慧城市应用的顶级计算机视觉竞赛,今年已进入第十个年头。
- PAI-AV Reasoning Challenge 是一项新的开放基准,用于评估 VLA 模型通过因果链标签解释驾驶决策的能力。
- AlpaSim 闭环端到端驾驶挑战赛,这是一个新的开放基准,用于在基于真实世界重建场景的闭环仿真中测试自动驾驶策略。
来自新 Robot Sim Dataset 的样本视频网格,作为 Cosmos 3 数据集发布的一部分。
NVIDIA 还在通过用于训练、微调和评估的数据集,扩展物理 AI 背后的研究基础设施。NVIDIA Physical AI Dataset 在 Hugging Face 上的下载量已超过 1500 万次以上,而 NVIDIA Isaac GR00T X Embodiment Sim 已成为下载量最高的机器人数据集之一。新发布的数据集包括 GRAIL,其中包含约 50 小时的人形机器人与物体交互数据,以及用于在机器人技术、物理、数字人、自动驾驶、仓库安全和空间推理等领域训练 Cosmos 3 的六个合成视频数据集。
可用性
NVIDIA 物理 AI 代理工具和技能现已通过 GitHub 开放提供。
用于合成数据生成的代理技能和工具——Neural Reconstruction、Video Augmentation、Defect Image Generation——也可在 NVIDIA Brev 上作为 Physical AI Launchables 即时试用;这些预配置环境将代理技能和工具打包在一起,以加快合成数据生成和评估。Launchables 运行在托管的 NVIDIA H100 Tensor Core GPU 上,并为研究人员提供免费试用额度。
了解更多 NVIDIA 在 CVPR 上的信息,并探索 NVIDIA Research 在物理 AI、计算机视觉和自主系统方面的工作。开始使用 Isaac GR00T 和 NVIDIA 机器人技术工具。






