元鉴 Yuanjian

中文内容

已翻译professional media英文原文2026-06-03

让机器人夹爪有用的，并不是它能拿起一个物体，而是它能拿起下一个、再下一个，甚至能用它以前从未握持过的工具来完成抓取。

让自动驾驶车辆系统安全的，并不只是它能推理出一种情境的处理方式，而是它能在实际安装于车内的硬件上足够快速地完成推理。

让虚拟智能体具备能力的，是在面对真实世界之前，尽可能接触更多不同的环境。

在今年的 Computer Vision and Pattern Recognition（CVPR）会议上，NVIDIA Research 将展示三篇论文，分别应对这些挑战，并拥有一个共同主题：大规模训练能够创建可泛化到多样化应用的系统。

这三篇论文覆盖了物理 AI 研究中的不同挑战：

GraspGen-X 是首个用于零样本抓取的基础模型，通过数十亿次模拟抓取进行训练，可与展示给它的任何夹爪配合工作。
LCDrive 提出了一种模型，用紧凑的潜在表示替代昂贵的基于文本的推理，使自动驾驶车辆能够在嵌入式硬件上更快地思考。
NitroGen 是一种通用游戏玩法 AI 基础模型，利用 NVIDIA Isaac GR00T 机器人基础模型架构，帮助在虚拟环境中通过数万小时交互训练具身智能体。

NVIDIA 还在 CVPR 上发布了新的物理 AI 智能体技能，帮助研究人员和开发者加快自动驾驶车辆、机器人和视觉 AI 系统的开发。

大多数用于机器人抓取的 AI 系统都是专用型系统。

为双指夹爪训练的视觉-语言-动作策略，只会学习用这两根手指进行抓取。同样，用于灵巧抓取的策略也只适用于其训练所针对的定制多指夹爪。对于每一种新的具身形态，这一流程通常都需要重复，需要新的训练数据、微调和验证。这一限制意味着，大多数机器人公司会选择一种夹爪，为其训练，然后一直沿用。

GraspGen-X 是首个为消除这一瓶颈而构建的抓取基础模型。

就像大型语言模型无需重新训练就能将其对语言的理解应用于新任务一样，GraspGen-X 能将其对几何和接触的理解应用于它遇到的任何机器人夹爪。给定一种新夹爪的几何形状，以及一个它从未见过的未知物体，该模型会生成可靠的抓取位姿建议，使机器人能够抓取该物体。

为实现这一目标，研究人员需要一个在现实世界中不可能大规模收集的数据集。他们在数千种物体形状和合成夹爪配置中生成了 20 亿次模拟抓取，覆盖了已部署机器人可能遇到的各种形态因素。

对于机器人开发者而言，这一基础模型消除了按夹爪逐一训练的周期需求，并且可开箱即用于若干常用夹爪。GraspGenX 可与 curoboV2 结合使用；curoboV2 是一个新的 CUDA 加速运动规划库，可在未知环境中实现这些抓取位姿。

基于 GraspGen 研究基础，另一篇论文 Grasp-MPC——将在 ICRA 2026 上展示——推进了流程中的下一步：从抓取生成迈向闭环抓取执行。

近年来，研究人员发现，让 AI 进行推理——在给出答案前生成中间思考步骤——能够可靠地提升其决策能力。

对于自动驾驶车辆而言，挑战在于要在真实车辆内部的硬件上完成这种推理。基于文本的思维链推理会生成词语，而每个词语都是一个需要时间生成的 token。在车内运行的处理器上，token 数量是系统响应速度的真实约束。

LCDrive 通过用压缩的潜在表示替代词语来解决这一问题。

该系统并不生成人类可读的推理步骤，而是在紧凑的潜在空间中进行思考，即捕捉空间信息的状态，而不是生成文本。该架构在两类思考之间交替：先提出候选动作，然后预测如果执行这些动作，世界将呈现什么样子。

它利用预测出的世界状态来优化下一步。这是同样的推理循环，只是形式上比自然语言更具计算效率。

结果是：在使用大约一半 token 的情况下，获得了与基于文本的推理相当的输出轨迹质量。

该模型构建于 NVIDIA Alpamayo，并使用来自现有车辆数据的监督信号进行训练。

Isaac GR00T——NVIDIA 面向人形机器人的开放基础模型——建立在一个简单原则之上：让模型接触足够多样化的情境，它就能泛化到未见过的情境。

NitroGen 将这一原则扩展到虚拟环境中，使用 GR00T 架构，在广泛的虚拟世界中为具身智能体训练基础模型。

电子游戏提供了某种难以从零构建的资源：结构化、多样化的世界，具有明确目标和清晰定义的成功条件。它们是高质量的训练环境，并且可大规模获得。

NitroGen 正是这样看待电子游戏的——将其作为智能体的训练场，使这些智能体最终能够被训练来处理新颖的真实世界或模拟世界情境，例如驱动一个机器人，根据“把这些物品收进食品储藏室”这类宽泛指令帮助做家务。

基于 GR00T 的模型在超过 1,000 款游戏和 40,000 小时交互中训练，得到的智能体学会了跨环境泛化。该模型在一系列动作角色扮演游戏、平台游戏、Roguelike 游戏和开放世界游戏中进行了评估，展示了涵盖战斗、导航和探索的游戏玩法行为。

同样的技术最终也可能帮助游戏中实现更具适应性的非玩家角色、AI 伴侣和游戏玩法系统，以及对复杂游戏环境开展更广泛的测试。

在低数据条件下——即智能体只见过某个新环境的少量示例时——以 NitroGen 作为起点能为智能体带来巨大先发优势，相比此前最先进方法，性能最高提升 52%。

该模型为开源模型，可在 GitHub 和 Hugging Face 上获取。

了解更多 NVIDIA 在 CVPR 上的内容，并探索 NVIDIA Research 在物理 AI、计算机视觉和自主系统方面的工作。开始使用 Isaac GR00T 和 NVIDIA 机器人工具。