元鉴
返回中文阅读流

NVIDIA Developer Blog

如何使用 NVIDIA Alpamayo 对自动驾驶汽车模型进行闭环后训练

开发自动驾驶汽车(AV)策略需要弥合训练与部署之间的重要差距。视觉-语言-动作(VLA)模型可以……

中文内容

已翻译official company source英文原文2026-06-05

开发自动驾驶汽车(AV)策略需要弥合训练与部署之间的重要差距。能够对更复杂驾驶场景进行推理并生成更丰富中间推理的视觉-语言-动作(VLA)模型,主要是在开环环境中训练的;在这种环境下,模型输出会直接与真实行为进行比较,而不考虑其对环境的影响。

然而,在部署中,驾驶策略是在闭环中运行的,每一次制动、转向和导航决策都会影响环境,微小错误可能会随时间累积。

NVIDIA Alpamayo 为应对这一挑战提供了系统性手段。它是一个面向 AV 开发的开放组合,包含 AI 模型、仿真框架和物理 AI 数据集。Alpamayo 包括 AlpaSim AV 仿真平台和 AlpaGym 闭环训练框架(即将推出)。

本文说明如何使用 NVIDIA Alpamayo 在闭环中训练 AV 模型。具体来说,将逐步介绍如何:

  • 安装并配置 AlpaGym
  • 定义闭环奖励
  • 启动闭环训练
  • 导出后训练检查点以供下游使用

使用 AlpaGym 进行闭环后训练,通过将 AlpaSim rollout 转化为训练经验,扩展了 AV 训练工作流。AlpaGym 并非只把仿真视为最终评估阶段,而是将仿真器反馈直接连接到策略训练循环。

Workflow diagram showing a driving model (such as Alpamayo) undergoing reinforcement learning post-training in AlpaGym, including Data Collection, Closed-Loop Simulation, Driving Model, Policy Training and Orchestration.Workflow diagram showing a driving model (such as Alpamayo) undergoing reinforcement learning post-training in AlpaGym, including Data Collection, Closed-Loop Simulation, Driving Model, Policy Training and Orchestration.
图 1. 使用 AlpaGym 对 Alpamayo 等驾驶模型进行后训练的端到端工作流

如何使用 AlpaGym 进行闭环强化学习

强化学习(RL)可用于改进最初在开环中训练的策略。模型现在不再只针对记录下来的专家轨迹进行优化,而是可以从其自身动作在仿真中产生的后果中学习。

这种转变对 AV 开发至关重要,因为微小的预测或规划错误可能会随时间累积。在闭环训练中,每一次制动、转向和导航决策都会影响环境的下一个状态,从而暴露静态数据集或开环评估可能遗漏的失效模式。

然而,启用闭环 RL 本身也带来挑战。模型推理、运行仿真、训练模型、同步权重更新、在实例之间通信以及移动数据——所有这些都要并行进行,过程十分复杂。这需要以稳健而灵活的方式进行编排,并高效利用计算资源。

Perspective grid of driving-scene clips showing many AlpaSim closed-loop rollout instances running in parallel across different road scenarios for AlpaGym reinforcement learning.Perspective grid of driving-scene clips showing many AlpaSim closed-loop rollout instances running in parallel across different road scenarios for AlpaGym reinforcement learning.
图 2. AlpaGym 支持大规模闭环训练,驾驶模型可在大量不同的仿真场景中从自身动作后果中学习,从而显著缩小训练与部署之间的差异

为应对这些挑战,AlpaGym 将策略训练连接到 AlpaSim 闭环 rollout,并为闭环 RL 提供一个开源、高吞吐量框架。该系统将 AlpaSim 仿真器微服务、NVIDIA Physical AI Open Datasets 和分布式 NVIDIA Cosmos-RL 训练框架结合为可扩展的后训练流水线。

AlpaGym 可从单个 GPU 无缝扩展到多节点 GPU 集群,通过异步且稳定的分布式 RL 流水线支持高效的大规模训练,且无需修改用户代码。它集成 AlpaSim 和 Cosmos RL 作为运行时与编排层,默认算法为 GRPO,并包含使用 Alpamayo 模型和 Physical AI AV NuRec 数据集测试过的参考奖励函数。

要开始使用 AlpaGym 进行后训练,请按照以下步骤操作。

步骤 1:安装并配置 AlpaGym

要从 Alpamayo checkout 安装 AlpaGym,请在主机上安装原生 CUDA 依赖项和 Redis,然后同步 UV 工作区:

sudo apt-get update
sudo apt-get install -y libcudnn9-dev-cuda-12 \
  libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \
  redis-server git-lfs

git lfs install
git lfs pull

huggingface-cli login
# Or export HF_TOKEN=...

uv sync --all-packages
sudo apt-get update
sudo apt-get install -y libcudnn9-dev-cuda-12 \
  libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \
  redis-server
uv sync --all-packages

Python 环境由 uv 管理,但 cuDNN、NCCL 和 redis-server 二进制文件是 CUDA 模型栈和 Cosmos-RL 使用的主机依赖项。也可使用提供的合适 Dockerfile。下载场景工件需要 Hugging Face 身份验证。

一次 AlpaGym 运行是一个 Hydra 配置。它指定策略检查点、AlpaSim 场景集、rollout 并行度、奖励函数以及 Cosmos-RL 训练参数。在此工作流中,起始检查点是一个 Alpamayo 模型。

Architecture diagram of AlpaGym closed-loop post-training, showing AlpaSim simulator sessions sending sensor data and receiving driving actions through rollout workers, while a policy trainer and orchestrator update the model and coordinateArchitecture diagram of AlpaGym closed-loop post-training, showing AlpaSim simulator sessions sending sensor data and receiving driving actions through rollout workers, while a policy trainer and orchestrator update the model and coordinate
图 3. 在 AlpaGym 闭环后训练中,主机进程启动 AlpaSim,rollout worker 暴露策略驱动,AlpaSim 执行仿真器会话,AlpaGym 将 rollout 工件和奖励返回给训练器

步骤 2:定义闭环奖励

奖励应与希望在闭环中改进的行为相匹配。对于轨迹质量后训练,常见奖励项包括前进进度、车道保持、碰撞避免、越野率、舒适性以及与参考轨迹的距离。

一个实用的初始奖励会有意保持简单:将前进进度与对安全关键故障的惩罚相结合。在 AlpaGym 中,可尽可能使用 AlpaSim 指标,将其表示为若干项的小型加和:

# reward/progress_safety.yaml
terms:
  - kind: metric
    metric_name: progress
    scale: 1.0
  - kind: metric
    metric_name: collision_any
    scale: -10.0
  - kind: metric
    metric_name: offroad
    scale: -5.0

流水线稳定后,可针对在 AlpaSim 视频和指标中观察到的失效模式添加更有针对性的项。

步骤 3:启动闭环后训练

从你的模型检查点启动 AlpaGym 训练。这里以 Alpamayo 作为示例模型。

uv run -m alpagym_host.cli \
  policy=alpamayo \
  policy.model.kind=alpamayo_r1 \
  policy.model.path=/path/to/checkpoint \
  reward=progress_safety

这将在单个 GPU 上启动带有 AlpaSim 的 AlpaGym。请继续关注如何使用你自己的 AV 模型的详细说明。

训练期间,AlpaGym 会向 AlpaSim 请求场景 rollout,收集每个 episode 的工件,计算奖励,并更新策略。有用的训练信号包括平均奖励、奖励方差、失败率、策略损失、rollout 吞吐量,以及生成的 rollout 与最新策略权重之间的差距。

在本流程中,这些 rollout 工件和训练信号是后训练运行的主要输出。它们有助于确认闭环学习是否正确运行,并为在你自己的保留 AlpaSim 场景套件上进行下游评估选择检查点。

步骤 4:导出后训练检查点

训练后,将 AlpaGym 生成的检查点和配置文件放入 AlpaSim 驱动可访问的文件夹(例如你的 Hugging Face 模型缓存)。然后使用该文件夹路径创建新的驱动配置(此处称为 alpamayo1_CLRL)。有关在驱动 yaml 配置中指定自定义路径需要编辑的内容,请参见以下代码。这会使经过 AlpaGym 后训练的策略能够在 AlpaSim 内运行,用于闭环 rollout。

...
model:
  model_type: alpamayo1
  checkpoint_path: "/root/.cache/huggingface/alpasim_models/alpamayo1_CLRL/step_NNNNNN"
  device: "cuda"
...

接下来,在一个具有代表性的场景上运行导出的模型,以验证策略、驱动和仿真循环是否正确连接。在此阶段,可以检查当策略自身动作影响环境下一状态时,其行为表现如何。

uv run alpasim_wizard deploy=local topology=1gpu 
driver=alpamayo1_CLRL wizard.log_dir=$PWD/tutorial_alpamayo_CLRL 
scenes.scene_ids=[clipgt-9ea70552-6dcb-4ee8-a368-9a906a333f6e]

闭环 rollout 提供有用的定性信号:模型是否生成稳定轨迹并保持在可行驶区域内,它如何应对附近交通参与者,以及哪些失效模式应在后训练期间作为目标。

视频 1. AV 模型的 AlpaSim 闭环 rollout,包括渲染的摄像头视图、预测轨迹和 rollout 级诊断信息

借助该检查点,团队可以检查训练期间收集的 rollout 视频、每个 episode 的指标、奖励轨迹和失败案例。这些工件可用于调试奖励设计、检查 rollout 稳定性,并为之后在 AlpaSim 中进行保留评估选择检查点。

开始后训练 AV 模型

闭环后训练为迭代端到端驾驶策略提供了实用路径。在这种情况下,AlpaGym 使用闭环 rollout 在仿真中对 AV 策略进行后训练,使其能够从自身动作的后果中学习。

你可以将这些工具与 NVIDIA Alpamayo Open Platform 的其他组件结合使用,开发可在闭环仿真工作流中运行、检查和后训练的推理模型。你也可以使用自己的奖励、场景和评估套件,将同一流程更广泛地扩展。

准备开始了吗?请查看 NVlabs/alpamayo-recipes GitHub 仓库,以便将本文中的流程适配到你自己的用例。

若要在公开排行榜上评估你的模型,请参见 NVIDIA 在 CVPR 2026 推出的两个开放 AV 挑战:

  • 正文:AlpaSim Closed-Loop E2E Driving Challenge
  • 正文:Physical AI AV Reasoning Challenge

若要了解更多信息,请参见 Expanding the Alpamayo Open Platform for Developing Reasoning AVs Across Models, Data, and Simulation。

欢迎参加 NVIDIA 创始人兼 CEO Jensen Huang 的 NVIDIA GTC Taipei 2026 主题演讲,并通过相关会议深入了解。

Like

标签

原文标题

How to Post-Train Autonomous Vehicle Models in Closed-Loop with NVIDIA Alpamayo