元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-06-05

开发自动驾驶汽车（AV）策略需要弥合训练与部署之间的重要差距。能够对更复杂驾驶场景进行推理并生成更丰富中间推理的视觉-语言-动作（VLA）模型，主要是在开环环境中训练的；在这种环境下，模型输出会直接与真实行为进行比较，而不考虑其对环境的影响。

然而，在部署中，驾驶策略是在闭环中运行的，每一次制动、转向和导航决策都会影响环境，微小错误可能会随时间累积。

NVIDIA Alpamayo 为应对这一挑战提供了系统性手段。它是一个面向 AV 开发的开放组合，包含 AI 模型、仿真框架和物理 AI 数据集。Alpamayo 包括 AlpaSim AV 仿真平台和 AlpaGym 闭环训练框架（即将推出）。

本文说明如何使用 NVIDIA Alpamayo 在闭环中训练 AV 模型。具体来说，将逐步介绍如何：

安装并配置 AlpaGym
定义闭环奖励
启动闭环训练
导出后训练检查点以供下游使用

使用 AlpaGym 进行闭环后训练，通过将 AlpaSim rollout 转化为训练经验，扩展了 AV 训练工作流。AlpaGym 并非只把仿真视为最终评估阶段，而是将仿真器反馈直接连接到策略训练循环。

Workflow diagram showing a driving model (such as Alpamayo) undergoing reinforcement learning post-training in AlpaGym, including Data Collection, Closed-Loop Simulation, Driving Model, Policy Training and Orchestration. — 图 1. 使用 AlpaGym 对 Alpamayo 等驾驶模型进行后训练的端到端工作流

如何使用 AlpaGym 进行闭环强化学习

强化学习（RL）可用于改进最初在开环中训练的策略。模型现在不再只针对记录下来的专家轨迹进行优化，而是可以从其自身动作在仿真中产生的后果中学习。

这种转变对 AV 开发至关重要，因为微小的预测或规划错误可能会随时间累积。在闭环训练中，每一次制动、转向和导航决策都会影响环境的下一个状态，从而暴露静态数据集或开环评估可能遗漏的失效模式。

然而，启用闭环 RL 本身也带来挑战。模型推理、运行仿真、训练模型、同步权重更新、在实例之间通信以及移动数据——所有这些都要并行进行，过程十分复杂。这需要以稳健而灵活的方式进行编排，并高效利用计算资源。

Perspective grid of driving-scene clips showing many AlpaSim closed-loop rollout instances running in parallel across different road scenarios for AlpaGym reinforcement learning. — 图 2. AlpaGym 支持大规模闭环训练，驾驶模型可在大量不同的仿真场景中从自身动作后果中学习，从而显著缩小训练与部署之间的差异

为应对这些挑战，AlpaGym 将策略训练连接到 AlpaSim 闭环 rollout，并为闭环 RL 提供一个开源、高吞吐量框架。该系统将 AlpaSim 仿真器微服务、NVIDIA Physical AI Open Datasets 和分布式 NVIDIA Cosmos-RL 训练框架结合为可扩展的后训练流水线。

AlpaGym 可从单个 GPU 无缝扩展到多节点 GPU 集群，通过异步且稳定的分布式 RL 流水线支持高效的大规模训练，且无需修改用户代码。它集成 AlpaSim 和 Cosmos RL 作为运行时与编排层，默认算法为 GRPO，并包含使用 Alpamayo 模型和 Physical AI AV NuRec 数据集测试过的参考奖励函数。

要开始使用 AlpaGym 进行后训练，请按照以下步骤操作。

步骤 1：安装并配置 AlpaGym

要从 Alpamayo checkout 安装 AlpaGym，请在主机上安装原生 CUDA 依赖项和 Redis，然后同步 UV 工作区：

sudo apt-get update
sudo apt-get install -y libcudnn9-dev-cuda-12 \
  libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \
  redis-server git-lfs

git lfs install
git lfs pull

huggingface-cli login
# Or export HF_TOKEN=...

uv sync --all-packages
sudo apt-get update
sudo apt-get install -y libcudnn9-dev-cuda-12 \
  libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \
  redis-server
uv sync --all-packages

Python 环境由 uv 管理，但 cuDNN、NCCL 和 redis-server 二进制文件是 CUDA 模型栈和 Cosmos-RL 使用的主机依赖项。也可使用提供的合适 Dockerfile。下载场景工件需要 Hugging Face 身份验证。

一次 AlpaGym 运行是一个 Hydra 配置。它指定策略检查点、AlpaSim 场景集、rollout 并行度、奖励函数以及 Cosmos-RL 训练参数。在此工作流中，起始检查点是一个 Alpamayo 模型。

Architecture diagram of AlpaGym closed-loop post-training, showing AlpaSim simulator sessions sending sensor data and receiving driving actions through rollout workers, while a policy trainer and orchestrator update the model and coordinate — 图 3. 在 AlpaGym 闭环后训练中，主机进程启动 AlpaSim，rollout worker 暴露策略驱动，AlpaSim 执行仿真器会话，AlpaGym 将 rollout 工件和奖励返回给训练器

步骤 2：定义闭环奖励

奖励应与希望在闭环中改进的行为相匹配。对于轨迹质量后训练，常见奖励项包括前进进度、车道保持、碰撞避免、越野率、舒适性以及与参考轨迹的距离。

一个实用的初始奖励会有意保持简单：将前进进度与对安全关键故障的惩罚相结合。在 AlpaGym 中，可尽可能使用 AlpaSim 指标，将其表示为若干项的小型加和：

# reward/progress_safety.yaml
terms:
  - kind: metric
    metric_name: progress
    scale: 1.0
  - kind: metric
    metric_name: collision_any
    scale: -10.0
  - kind: metric
    metric_name: offroad
    scale: -5.0

流水线稳定后，可针对在 AlpaSim 视频和指标中观察到的失效模式添加更有针对性的项。

步骤 3：启动闭环后训练

从你的模型检查点启动 AlpaGym 训练。这里以 Alpamayo 作为示例模型。

uv run -m alpagym_host.cli \
  policy=alpamayo \
  policy.model.kind=alpamayo_r1 \
  policy.model.path=/path/to/checkpoint \
  reward=progress_safety

这将在单个 GPU 上启动带有 AlpaSim 的 AlpaGym。请继续关注如何使用你自己的 AV 模型的详细说明。

训练期间，AlpaGym 会向 AlpaSim 请求场景 rollout，收集每个 episode 的工件，计算奖励，并更新策略。有用的训练信号包括平均奖励、奖励方差、失败率、策略损失、rollout 吞吐量，以及生成的 rollout 与最新策略权重之间的差距。

在本流程中，这些 rollout 工件和训练信号是后训练运行的主要输出。它们有助于确认闭环学习是否正确运行，并为在你自己的保留 AlpaSim 场景套件上进行下游评估选择检查点。

步骤 4：导出后训练检查点

训练后，将 AlpaGym 生成的检查点和配置文件放入 AlpaSim 驱动可访问的文件夹（例如你的 Hugging Face 模型缓存）。然后使用该文件夹路径创建新的驱动配置（此处称为 alpamayo1_CLRL）。有关在驱动 yaml 配置中指定自定义路径需要编辑的内容，请参见以下代码。这会使经过 AlpaGym 后训练的策略能够在 AlpaSim 内运行，用于闭环 rollout。

...
model:
  model_type: alpamayo1
  checkpoint_path: "/root/.cache/huggingface/alpasim_models/alpamayo1_CLRL/step_NNNNNN"
  device: "cuda"
...

接下来，在一个具有代表性的场景上运行导出的模型，以验证策略、驱动和仿真循环是否正确连接。在此阶段，可以检查当策略自身动作影响环境下一状态时，其行为表现如何。

uv run alpasim_wizard deploy=local topology=1gpu 
driver=alpamayo1_CLRL wizard.log_dir=$PWD/tutorial_alpamayo_CLRL 
scenes.scene_ids=[clipgt-9ea70552-6dcb-4ee8-a368-9a906a333f6e]

闭环 rollout 提供有用的定性信号：模型是否生成稳定轨迹并保持在可行驶区域内，它如何应对附近交通参与者，以及哪些失效模式应在后训练期间作为目标。

视频 1. AV 模型的 AlpaSim 闭环 rollout，包括渲染的摄像头视图、预测轨迹和 rollout 级诊断信息

借助该检查点，团队可以检查训练期间收集的 rollout 视频、每个 episode 的指标、奖励轨迹和失败案例。这些工件可用于调试奖励设计、检查 rollout 稳定性，并为之后在 AlpaSim 中进行保留评估选择检查点。

开始后训练 AV 模型

闭环后训练为迭代端到端驾驶策略提供了实用路径。在这种情况下，AlpaGym 使用闭环 rollout 在仿真中对 AV 策略进行后训练，使其能够从自身动作的后果中学习。

你可以将这些工具与 NVIDIA Alpamayo Open Platform 的其他组件结合使用，开发可在闭环仿真工作流中运行、检查和后训练的推理模型。你也可以使用自己的奖励、场景和评估套件，将同一流程更广泛地扩展。

准备开始了吗？请查看 NVlabs/alpamayo-recipes GitHub 仓库，以便将本文中的流程适配到你自己的用例。

若要在公开排行榜上评估你的模型，请参见 NVIDIA 在 CVPR 2026 推出的两个开放 AV 挑战：

正文：AlpaSim Closed-Loop E2E Driving Challenge
正文：Physical AI AV Reasoning Challenge

若要了解更多信息，请参见 Expanding the Alpamayo Open Platform for Developing Reasoning AVs Across Models, Data, and Simulation。

欢迎参加 NVIDIA 创始人兼 CEO Jensen Huang 的 NVIDIA GTC Taipei 2026 主题演讲，并通过相关会议深入了解。

如何使用 NVIDIA Alpamayo 对自动驾驶汽车模型进行闭环后训练