元鉴
返回中文阅读流

NVIDIA Newsroom

NVIDIA Research 推动机器人技术从仿真走向现实世界

机器人技术正迈入一个新阶段:从受控演示和脚本化自动化,向现实世界中可泛化且可靠的具身自主能力演进。在国际机器人与自动化会议(ICRA)上,NVIDIA Research 获录用的 28 篇论文中有 8 篇展示了仿真到现实的迁移如何成为这一转变的基石,助力机器人实现感知、推理、规划与……

中文内容

已翻译professional media英文原文2026-05-28

机器人技术正迈入新阶段:从受控演示与脚本化自动化,逐步走向在现实世界中具备泛化能力与可靠性的具身自主。

在国际机器人与自动化会议(ICRA)上,NVIDIA Research 的28篇录用论文中有8篇展示了仿真到现实的迁移如何成为这一转变的基石,助力机器人在动态且不可预测的环境中实现感知、推理、规划与行动。

这些论文共同涵盖了机器人开发者所面临的全栈挑战:多机械臂并行协同、构建跨不同机器人本体泛化的策略、在杂乱场景中抓取新颖物体、执行精密装配,以及开发“先推理、后行动”的视觉-语言-动作模型。

贯穿其中的主线十分明确:仿真到现实技术正逐步成为机器人系统的基石,赋能机器人在实验室外具备更强的适应性、泛化能力与更高的运行可靠性。

机械臂协同、机体导航与物体抓取

设想一个由机械臂运作的制药实验室:取放试管、转移液体、混合试剂——每一步所需时间各不相同,且均需精密协调。

传统的机器人调度软件会按顺序处理这些步骤,一次仅控制单条机械臂。

ScheduleStream 通过调用 GPU 进行计算改变了这一现状,允许多条机械臂并行规划路径并协同作业。测试结果显示——在 NVIDIA Jetson 等边缘 AI 硬件平台上,多臂规划场景的处理速度提升了 3 倍。该框架的代码已发布于 GitHub。

具备空间导航能力(规避障碍并抵达目标)的机器人,通常仅针对单一机身形态进行训练。若将同一套导航软件移植至外形不同的机器人,系统往往会失效,因为不同机型的部件运动方式存在差异。

COMPASS 策略框架通过以下方式破解了这一难题:首先利用模仿学习构建基础导航功能,随后在 NVIDIA Isaac Lab 中引入残差强化学习,为多样化的机器人形态训练专用策略。至关重要的是,该流程的任何阶段均未引入真实世界数据:全部训练均在 Isaac Lab 仿真环境中完成。

与模仿学习基线相比,COMPASS 在平均成功率上实现了 4.5 倍的提升。它还能无缝迁移至真实环境,在自主移动机器人和人形机器人的 20 次真实世界导航试验中取得了约 80% 的成功率。

COMPASS 采用智能体友好型设计,并配备专属技能——开发者可将其工作流与 NVIDIA Omniverse NuRec 对接,以便在部署前于新环境的数字孪生中对机器人进行后训练与验证。

大多数抓取系统的工作流程是识别物体、预测抓取位姿、规划路径,然后执行操作。然而,在接近物体的最后几厘米范围内,微小误差的影响最为关键。

Grasp-MPC 能够自适应计算机器人的抓取动作,在机器人接近目标物体时持续校正其运动轨迹,而非机械地执行固定规划——这类似于人类抓取物品时依靠感知反馈,而非提前精确计算每一个关节角度。

为构建该策略,研究人员利用 GraspGen 数据集的标注数据以及 cuRobo(一个基于 CUDA 加速的机器人运动生成库)的运动规划数据,针对 8000 个物体生成了 200 万条模拟轨迹。

经过对成功与失败轨迹的训练,Grasp-MPC 学会了在杂乱的桌面和货架上抓取未知物体,在真实机器人上的总体成功率约为 75%,而基线仅为 41%。

Deformable Cluster Manipulation 引入了一个应对类似挑战的框架:使系统不仅能够抓取单个物体,还能一次性抓取整团柔性且相互缠绕的材料。

该框架的灵感来源于一项实际任务:清理横跨电线生长的成片树枝,此类场景中并无单一、明确的物体可供抓取。系统会调用整个机械臂而非仅靠末端夹爪:将机械臂环绕树枝丛并将其拨开,其动作类似于人类怀抱一捆线缆或将一团灌木丛推开。

研究人员利用生物生长方程构建了树木生成器,用以生成形状与尺寸各异的虚拟树木;随后在 NVIDIA Isaac 开放仿真框架中,利用数千棵此类树木对系统进行了训练。

该策略可零样本部署于真实树枝场景。除电力线路维护外,研究人员认为该技术在理线作业、农业巡检,以及任何需要机器人处理缠绕物而非单一可抓取物体的场景中均具有应用潜力。

在零样本仿真至现实部署中清除树枝。

精准装配

精准装配——将螺母旋入螺栓、将齿轮套入齿轮轴、将销钉压入孔洞——仅依靠仿真历来难以完美实现。

现实世界十分复杂。真实表面并非绝对光滑。传感器的实际表现往往与规格存在偏差。仿真器忽略的微小差异,足以让机器人停滞不前。

SPARR 方法通过将任务一分为二来应对这一挑战。在 Isaac Lab 中训练的策略会在仿真中学习装配任务的通用策略;随后,在实际硬件上,第二层将学习修正仿真环境中的误差——整个过程仅依赖机器人自带的摄像头,且无需任何人类演示或指导。

与零样本仿真到现实基线相比,SPARR 将成功率提升了 38%,并将作业周期缩短了约 30%。

在训练期间未曾接触过的美国国家标准与技术研究院(NIST)装配任务上,成功率提升了近 75%——已接近需要人工介入方法所取得的结果。

Refinery 框架进一步挑战了装配任务中更高阶的难度:包含多个连续步骤的任务,其中第一步的完成状态直接决定了第二步是否具备执行条件。这就像组装家具——如果某块面板的角度摆放错误,下一个紧固件就无法安装到位。

通过掌握成功率随初始条件的变化规律,并在数百个仿真装配场景中进行训练,Refinery 学会了如何完成每一步骤,并将各组件置于有利于后续步骤衔接的状态。它在仿真中实现了 91% 的成功率,相较于基线平均提升近 11%,且在实际应用中表现相当;此外,其控制策略可进行串联,以处理冗长、多部件的复杂序列。

言出必行的动作模型

PEEK 流程有助于机器人排除环境干扰、看清目标。在典型的机械操作任务中,机器人的摄像头会捕捉场景中的所有信息,但其中大部分属于无关噪声。

PEEK 项目页面演示的其中一项任务是“将香蕉递给 NVIDIA 创始人兼首席执行官 Jensen Huang”:桌上摆放着 Huang 的照片以及 Michael Jordan 的照片,周围还散落着一些无关物品及其他干扰物。

人类在执行该任务时会立刻将注意力集中在香蕉和正确的照片上;而标准的机器人策略则需处理所有信息,且极易产生混淆。PEEK 的解决方案是让视觉语言模型读取任务指令,并据此引导机器人的视觉焦点——系统会标示出移动路径,高亮显示关键物体周边区域,同时将其他无关内容淡化处理。

随后,机器人策略将基于该标注后的视图进行决策,而非直接处理原始场景。对于完全在仿真环境中训练的策略,引入 PEEK 使其在真实场景中的准确率提升了 41 倍。对于大型 VLA 模型及较小规模策略,性能提升幅度在 2 至 3.5 倍之间。由于 PEEK 作用于图像层面,因此无需任何修改即可无缝集成至任何基于摄像头的机器人策略中。

“Do What You Say”(与 Carnegie Mellon University、University of Utah 及 University of Sydney 研究人员合作开发的项目)旨在解决一种特定的失效模式。随着机器人承担更长、更复杂的任务,该问题的重要性愈发凸显。

向机器人下达诸如“把桌上所有物品都收进柜子里”或“调制一杯曼哈顿鸡尾酒”的指令,它必须将其分解为独立的步骤并按顺序执行。

问题在于,AI模型能够正确推理出它需要做什么——但实际执行时却采取了不同的操作。

该方法名为 SEAL,无需重新训练即可在运行时解决这一问题:机器人会生成多个候选动作序列,推演每个序列实际会产生的结果,并选择与它预期执行目标相匹配的输出。与先前研究相比,SEAL 的准确率最高提升 15%,且对指令改写、物体更换、场景杂乱以及视角偏移均具备良好的鲁棒性。

除学术论文外,NVIDIA 还通过大规模开源机器人数据集不断拓展机器人研究基础设施。NVIDIA Physical AI Dataset 是全球规模最大的物理AI开发开源数据集,下载量已突破 1500 万次;同时,NVIDIA Isaac GR00T X Embodiment Sim 也已成为下载量最高的机器人数据集之一。

高校借助 NVIDIA 技术加速物理AI研究

来自卡内基梅隆大学 (CMU)、苏黎世联邦理工学院 (ETH Zurich)、麻省理工学院 (MIT) 和德克萨斯大学奥斯汀分校等高校的机器人团队正借助 NVIDIA 技术,推动物理 AI 研究从仿真走向现实系统——已有近 50 篇被录用的论文引用了 NVIDIA 加速仿真、机器人学习和计算技术。

例如,CMU 的一篇论文展示了在 NVIDIA Isaac Lab 中训练的机器人控制框架,以及 MIT 基于 NVIDIA GPU 驱动的大型语言模型引导的强化学习研究。

探索 NVIDIA Research 的物理 AI 研究工作。开发者可从 Isaac Lab 和 Isaac Sim 开始上手。

订阅我们的新闻简报,并在 LinkedIn、Instagram、X 和 Facebook 上关注 NVIDIA Robotics,以获取最新动态。

如需开启您的机器人技术探索之旅,请立即注册免费的 NVIDIA Robotics Fundamentals 课程。

原文标题

NVIDIA Research Advances Robotics From Simulation to the Real World