中文内容
开发自动驾驶汽车(AV)策略需要弥合训练与部署之间的重要差距。能够对更复杂驾驶场景进行推理并生成更丰富中间推理的视觉-语言-动作(VLA)模型,主要是在开环环境中训练的;在这种环境下,模型输出会直接与真实行为进行比较,而不考虑其对环境的影响。
然而,在部署中,驾驶策略是在闭环中运行的,每一次制动、转向和导航决策都会影响环境,微小错误可能会随时间累积。
NVIDIA Alpamayo 为应对这一挑战提供了系统性手段。它是一个面向 AV 开发的开放组合,包含 AI 模型、仿真框架和物理 AI 数据集。Alpamayo 包括 AlpaSim AV 仿真平台和 AlpaGym 闭环训练框架(即将推出)。
本文说明如何使用 NVIDIA Alpamayo 在闭环中训练 AV 模型。具体来说,将逐步介绍如何:
- 安装并配置 AlpaGym
- 定义闭环奖励
- 启动闭环训练
- 导出后训练检查点以供下游使用
使用 AlpaGym 进行闭环后训练,通过将 AlpaSim rollout 转化为训练经验,扩展了 AV 训练工作流。AlpaGym 并非只把仿真视为最终评估阶段,而是将仿真器反馈直接连接到策略训练循环。

如何使用 AlpaGym 进行闭环强化学习
强化学习(RL)可用于改进最初在开环中训练的策略。模型现在不再只针对记录下来的专家轨迹进行优化,而是可以从其自身动作在仿真中产生的后果中学习。
这种转变对 AV 开发至关重要,因为微小的预测或规划错误可能会随时间累积。在闭环训练中,每一次制动、转向和导航决策都会影响环境的下一个状态,从而暴露静态数据集或开环评估可能遗漏的失效模式。
然而,启用闭环 RL 本身也带来挑战。模型推理、运行仿真、训练模型、同步权重更新、在实例之间通信以及移动数据——所有这些都要并行进行,过程十分复杂。这需要以稳健而灵活的方式进行编排,并高效利用计算资源。

为应对这些挑战,AlpaGym 将策略训练连接到 AlpaSim 闭环 rollout,并为闭环 RL 提供一个开源、高吞吐量框架。该系统将 AlpaSim 仿真器微服务、NVIDIA Physical AI Open Datasets 和分布式 NVIDIA Cosmos-RL 训练框架结合为可扩展的后训练流水线。
AlpaGym 可从单个 GPU 无缝扩展到多节点 GPU 集群,通过异步且稳定的分布式 RL 流水线支持高效的大规模训练,且无需修改用户代码。它集成 AlpaSim 和 Cosmos RL 作为运行时与编排层,默认算法为 GRPO,并包含使用 Alpamayo 模型和 Physical AI AV NuRec 数据集测试过的参考奖励函数。
要开始使用 AlpaGym 进行后训练,请按照以下步骤操作。
步骤 1:安装并配置 AlpaGym
要从 Alpamayo checkout 安装 AlpaGym,请在主机上安装原生 CUDA 依赖项和 Redis,然后同步 UV 工作区:
sudo apt-get update sudo apt-get install -y libcudnn9-dev-cuda-12 \ libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \ redis-server git-lfs git lfs install git lfs pull huggingface-cli login # Or export HF_TOKEN=... uv sync --all-packages sudo apt-get update sudo apt-get install -y libcudnn9-dev-cuda-12 \ libnccl-dev=2.26.2-1+cuda12.8 libnccl2=2.26.2-1+cuda12.8 \ redis-server uv sync --all-packages
Python 环境由 uv 管理,但 cuDNN、NCCL 和 redis-server 二进制文件是 CUDA 模型栈和 Cosmos-RL 使用的主机依赖项。也可使用提供的合适 Dockerfile。下载场景工件需要 Hugging Face 身份验证。
一次 AlpaGym 运行是一个 Hydra 配置。它指定策略检查点、AlpaSim 场景集、rollout 并行度、奖励函数以及 Cosmos-RL 训练参数。在此工作流中,起始检查点是一个 Alpamayo 模型。

步骤 2:定义闭环奖励
奖励应与希望在闭环中改进的行为相匹配。对于轨迹质量后训练,常见奖励项包括前进进度、车道保持、碰撞避免、越野率、舒适性以及与参考轨迹的距离。
一个实用的初始奖励会有意保持简单:将前进进度与对安全关键故障的惩罚相结合。在 AlpaGym 中,可尽可能使用 AlpaSim 指标,将其表示为若干项的小型加和:
# reward/progress_safety.yaml
terms:
- kind: metric
metric_name: progress
scale: 1.0
- kind: metric
metric_name: collision_any
scale: -10.0
- kind: metric
metric_name: offroad
scale: -5.0
流水线稳定后,可针对在 AlpaSim 视频和指标中观察到的失效模式添加更有针对性的项。
步骤 3:启动闭环后训练
从你的模型检查点启动 AlpaGym 训练。这里以 Alpamayo 作为示例模型。
uv run -m alpagym_host.cli \ policy=alpamayo \ policy.model.kind=alpamayo_r1 \ policy.model.path=/path/to/checkpoint \ reward=progress_safety
这将在单个 GPU 上启动带有 AlpaSim 的 AlpaGym。请继续关注如何使用你自己的 AV 模型的详细说明。
训练期间,AlpaGym 会向 AlpaSim 请求场景 rollout,收集每个 episode 的工件,计算奖励,并更新策略。有用的训练信号包括平均奖励、奖励方差、失败率、策略损失、rollout 吞吐量,以及生成的 rollout 与最新策略权重之间的差距。
在本流程中,这些 rollout 工件和训练信号是后训练运行的主要输出。它们有助于确认闭环学习是否正确运行,并为在你自己的保留 AlpaSim 场景套件上进行下游评估选择检查点。
步骤 4:导出后训练检查点
训练后,将 AlpaGym 生成的检查点和配置文件放入 AlpaSim 驱动可访问的文件夹(例如你的 Hugging Face 模型缓存)。然后使用该文件夹路径创建新的驱动配置(此处称为 alpamayo1_CLRL)。有关在驱动 yaml 配置中指定自定义路径需要编辑的内容,请参见以下代码。这会使经过 AlpaGym 后训练的策略能够在 AlpaSim 内运行,用于闭环 rollout。
... model: model_type: alpamayo1 checkpoint_path: "/root/.cache/huggingface/alpasim_models/alpamayo1_CLRL/step_NNNNNN" device: "cuda" ...
接下来,在一个具有代表性的场景上运行导出的模型,以验证策略、驱动和仿真循环是否正确连接。在此阶段,可以检查当策略自身动作影响环境下一状态时,其行为表现如何。
uv run alpasim_wizard deploy=local topology=1gpu driver=alpamayo1_CLRL wizard.log_dir=$PWD/tutorial_alpamayo_CLRL scenes.scene_ids=[clipgt-9ea70552-6dcb-4ee8-a368-9a906a333f6e]
闭环 rollout 提供有用的定性信号:模型是否生成稳定轨迹并保持在可行驶区域内,它如何应对附近交通参与者,以及哪些失效模式应在后训练期间作为目标。
借助该检查点,团队可以检查训练期间收集的 rollout 视频、每个 episode 的指标、奖励轨迹和失败案例。这些工件可用于调试奖励设计、检查 rollout 稳定性,并为之后在 AlpaSim 中进行保留评估选择检查点。
开始后训练 AV 模型
闭环后训练为迭代端到端驾驶策略提供了实用路径。在这种情况下,AlpaGym 使用闭环 rollout 在仿真中对 AV 策略进行后训练,使其能够从自身动作的后果中学习。
你可以将这些工具与 NVIDIA Alpamayo Open Platform 的其他组件结合使用,开发可在闭环仿真工作流中运行、检查和后训练的推理模型。你也可以使用自己的奖励、场景和评估套件,将同一流程更广泛地扩展。
准备开始了吗?请查看 NVlabs/alpamayo-recipes GitHub 仓库,以便将本文中的流程适配到你自己的用例。
若要在公开排行榜上评估你的模型,请参见 NVIDIA 在 CVPR 2026 推出的两个开放 AV 挑战:
- 正文:AlpaSim Closed-Loop E2E Driving Challenge
- 正文:Physical AI AV Reasoning Challenge
若要了解更多信息,请参见 Expanding the Alpamayo Open Platform for Developing Reasoning AVs Across Models, Data, and Simulation。
欢迎参加 NVIDIA 创始人兼 CEO Jensen Huang 的 NVIDIA GTC Taipei 2026 主题演讲,并通过相关会议深入了解。
标签















