元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

随着 AI 模型的规模和复杂性不断增长，要充分发挥现代加速基础设施的全部性能，工作负载的放置方式与硬件本身同样重要。NVIDIA GB200 NVL72 在单个机架中提供百亿亿次级计算能力，释放实时万亿参数模型的潜力。然而，在共享集群中获得这种性能，需要调度器理解系统架构，并使作业与其网络拓扑相匹配。

本文解释了 Slurm 拓扑感知作业调度如何在 NVIDIA GB200 NVL72 上工作，并提供了实现最佳 GPU 占用率的调度建议。

NVIDIA GB200 NVL72 如何提供百亿亿次级计算能力？

NVIDIA GB200 NVL72 是一台位于单个机架中的百亿亿次级计算机。72 个 NVIDIA Blackwell GPU 通过最大规模的量产纵向扩展计算结构互连，NVIDIA NVLink 为 AI 和高性能计算（HPC）工作负载提供每秒 130 TB（TB/s）的低延迟 GPU 通信带宽。多个 GB200 NVL72 系统组合成一个集群，可创建具有大规模超高网络带宽域的分层网络拓扑。

当 AI 训练作业经过调度以最大化利用 NVLink 织构时，它可以极大受益于 GB200 NVL72 提供的充足网络带宽。近期结果显示，GB200 NVL72 在所有 AI 工作负载上都带来了显著的性能提升，包括训练（在近期 MLPerf training 中提升 >2.6 倍）、不同的推理用例（万亿参数模型的实时推理、OAI gpt-oss 模型超过 150 万 tokens/second、最先进的分离式服务），以及推理能力。

在运行多个训练作业的共享集群中，资源高效的调度器必须考虑不同的网络带宽需求。

什么是拓扑感知作业调度？

拓扑感知作业调度使 Slurm 等作业调度器能够基于集群的物理网络布局（例如交换机和机架的层级结构）做出资源分配决策。调度器应保留局部性，尽可能将工作负载保持在同一个 NVLink 域内。此外，由于多个训练或推理作业可以容纳在一组 NVL72 机架中，调度器必须提供高效的装箱，以避免资源碎片化。

长期以来，Slurm topology/tree 插件为大型集群提供具备拓扑感知能力的调度，但其尽力而为的方法往往会将作业分散到多个叶交换机上，以减少排队时间。尽管这种在启动时间和性能之间的折中对于传统 InfiniBand 网络结构而言是可以接受的，但 GB200 NVL72 和 GB300 NVL72 等机架级系统的出现使变革成为必要。为此，NVIDIA 与 SchedMD 合作，在 Slurm 23.11 中推出了新的 topology/block 插件，专门面向这些现代架构设计。

此拓扑插件配置提供了关于属于同一 NVL72 域的节点组的信息，从而支持可将 Slurm 作业与 NVL72 域边界对齐的算法。要了解更多关于 block 拓扑插件以及分段大小如何被调度的信息，请参阅 Achieving Peak System and Workload Efficiency on NVIDIA GB200 NVL72 with Slurm Block Scheduling。

GB200 NVL72 上的集群分段和作业调度是如何工作的？

随着集群规模和复杂性不断增长，管理 GPU 资源对于实现高利用率和可预测性能变得至关重要。GB200 NVL72 系统引入了更大的 AI 作业分段大小和细粒度调度控制，使运营人员能够将分段配置与工作负载需求相匹配。结合 Slurm 工作负载管理器中支持 GB200 NVL72 的调度扩展，这种方法能够平衡大型和小型作业，即使存在硬件故障，也能最大限度提高效率。

GB200 NVL72 如何支持更大的分段大小？

在多 GPU 工作负载中，作业分段大小定义了由节点组成的子单元，这些节点可以完全通过 NVLink 相互通信。图 1 展示了如何使用分段数量（Y）和分段大小（S）来定义分配给特定作业的 GPU。对于 GB200 和 GB300，每个节点的 GPU 数量（G）始终为四个。

A diagram visually explains how GPUs are allocated to a job within the NVIDIA GB200 NVL72 system. The left side shows a 4x4 grid of green GPU blocks representing the total GPUs assigned to a job (X). This is broken down into an equation: 2 — 图 1. GB200 NVL72 作业大小支持通过 NVLink 实现更大且可扩展的 GPU 分组

在以往的系统中，例如 NVIDIA HGX H100，作业的分段大小限制为一个节点。GB200 NVL72 系统支持大得多的分段大小（最多 18 个节点），同时也能高效支持以单个节点作为分段。

给定应用的最佳分段大小由模型类型以及用于训练的并行类型组合等因素决定。一般来说，较大的作业（使用更多 GPU 的作业）以及对 I/O 带宽要求较高的作业——例如 mixture-of-experts（MoE）训练——会受益于更大的分段大小。相反，较小的作业通常对 I/O 带宽需求较低，应使用较小的分段大小，以避免对集群调度器造成过度约束。如果不确定，用户应针对其特定工作负载验证这一指导原则，因为性能影响可能因工作负载而异。

GB200 NVL72 分段大小设定的最佳实践是什么？

在建模过程中，我们团队发现了一些用于最大化 GB200 NVL72 集群利用率的一般性指导原则。一个经验法则是选择使用 16 个节点的“大”分段大小的关键作业规模，使这些作业在集群中的 GPU 小时占比 <= 90%。这将为调度器提供灵活性，使其能够通过合理混合不同分段大小来充分利用集群。表 1 总结了一些推荐的最佳配置。

Job sizeSegment sizeExample workloads12816MoE model training32 – 644Large dense model trainingLess than 321Smaller model training

表 1. 按作业规模和工作负载类型推荐的 GB200 NVL72 分段大小

请注意，出于本文目的，我们假设用户作业倾向于使用 2 的幂次方 GPU 分段大小运行（例如，4 个节点 = 16 个 GPU）。也可以选择其他分段大小（例如，每个分段 12、36 或 72 个 GPU）。要判断替代方法是否合理，请研究在映射到非 2 的幂次方分段大小时作业的效率，以及不同规模作业对集群整体利用率的影响。

如何在 GB200 NVL72 系统上调度作业

NVIDIA 和 SchedMD 已开发出基于 Slurm 的块调度扩展，可实现感知 GB200 NVL72 的作业放置，从而提高利用率。

借助二次幂规模的分段，一个 GB200 NVL72 集群可以并行运行大型和小型作业——例如，一个使用 16 个节点分段的 512 GPU 作业，同时运行多个使用单节点分段的 16 GPU 作业。这些调度策略在保持整个集群高效率的同时，最大限度地减少碎片化。

什么是 GB200 NVL72 调度仿真框架？

为了大规模评估调度策略，我们开发了一个独立的 Slurm 仿真器，该仿真器在虚拟机上运行，并支持时间加速的工作负载仿真。如图 2 所示，该仿真器通过以下方式提供准确且可重复的结果：

运行 Slurm 代码
重放生产工作负载或生成合成工作负载
模拟真实世界条件，包括节点故障和恢复
与指标系统集成，以便直接比较结果

该设置为在部署到生产环境之前测试、比较并有信心地推出新的调度策略提供了显著助力。

Diagram showing a flowchart consisting of six labeled boxes connected by green arrows. From left to right, the first box is "Production Cluster" which flows into a second box labeled "Data." The "Data" box then connects to a third box label — 图 2. 在 Slurm 模拟器流程中，比较生产环境和测试环境中的真实指标与模拟指标

模拟参数

团队建模的模拟环境参数包括：

集群容量：5,000 个 GB200 NVL72 节点（20,000 个 GPU）
工作负载：七天内 15,000 个作业
可靠性：任意时刻平均有 2.5% 的节点宕机

The bar chart titled "Simulation Job Distribution" shows five job size categories on the x-axis labeled as Small (≤2), Medium (3–15), Large (16–64), XLarge (65–256), and XXLarge (>256). Each category has two bars: a gray bar for percentage — 图 3. 按节点数量区间划分的作业分布，显示总作业百分比与总节点小时数百分比的关系

团队使用 Large_Perf_Custom 策略评估性能，该策略旨在平衡利用率和大型作业性能：

包含 32 个或更多节点的作业以 16 的分段大小运行
较小的作业以 2 的分段大小运行

仿真结果显示了什么？

为了评估新调度策略的性能，我们重点关注两个关键的主要集群指标：块碎片化和整体 GPU 占用率。

碎片化分析

GB200 NVL72 调度的一个关键指标是小型作业如何影响大型作业的 NVLink 域可用性。模拟器跟踪了小型作业（1-18 个节点）在每个 NVLink 域内的放置情况。

关键发现是，拓扑插件能够有效地将小型作业放置在每个域的最后两个节点上，从而最大限度地减少碎片化，并为更大型作业保留容量。

The heat map titled "Heat map: Large_Perf Job Distribution" displays the percentage distribution of small jobs across nodes. The x-axis lists node indices from N1 to N18, and the y-axis lists job sizes including 2, 4, and 8 nodes. The color — 图 4. 热力图显示小型作业集中放置在每个域的最后两个节点上，以最大限度地减少碎片化

占用率指标

尽管拓扑感知调度引入了约束，但我们的结果显示，通过一种最优的拓扑感知调度实现，它对整体占用率的影响几乎可以完全消除。图 5 显示，Large_Perf_Custom 与 NoTopo 之间的差异仅约为 1%。这一差距还可以通过更多小型作业进一步弥合。

Bar chart comparing two scheduling strategies: "Large_Perf_Custom" and "NoTopo." The Large_Perf_Custom bar is gray and shows 94.2% occupancy, while the NoTopo bar is green and shows 95.5% occupancy. Both bars stretch horizontally across a p — 图 5。仿真结果显示，占用率会随着灵活的段大小而提高

我们比较了我们开发的 Large_Perf_Custom 算法与 noTopo 策略下的占用率，其中 noTopo 配置表示在给定作业大小分布的情况下、忽略 noTopo 算法中因放置不佳而导致的大量运行时性能损失时，理论上可能达到的最佳占用率。实际目标是在避免拓扑无感知调度所带来的性能损失的同时，尽可能接近 noTopo 的占用率。

结果表明，我们的仿真实现了与 noTopo 相差约 1% 的占用率，证明拓扑感知调度可以在不牺牲性能的情况下实现高利用率。

对于 GB200 NVL72，最佳作业调度方法是什么？

基于我们的仿真结果和性能测试，我们建议为 NVIDIA GB200 NVL72 集群采用一种优先保障大型作业性能、同时维持高利用率的调度方法。应为使用 64 个或更多 GPU 的大型作业提供尽可能多的 NVLink 域访问权限，并通过分段大小来确保跨域按比例分配 GPU。基于分段的调度对于使资源与工作负载模式对齐至关重要。对于 32 个节点或更多的作业，如果应用能够从中受益，建议使用 16 的分段大小；而较小的作业更适合使用 2 到 8 的分段大小，具体取决于工作负载特征。

为了长期保持效率，持续监控和优化非常重要。跟踪碎片化指标、随着工作负载模式演变调整分段大小，并在生产部署之前使用仿真工具验证变更，有助于在不牺牲性能的情况下维持高利用率。虽然块拓扑可能引入降低占用率的约束，但应用战略性调度策略可以缓解这一影响，并保留性能优势。

开始使用 NVIDIA GB200 NVL72

NVIDIA GB200 NVL72 系统代表了 AI 和 HPC 计算领域的一项重大进步，而要充分释放其潜力，需要具备拓扑感知能力的调度。我们的建模表明，通过简单配置和基于分段的调度，可以在保持高集群利用率的同时实现最佳性能。模拟不同调度场景的能力进一步支持在不危及生产工作负载的情况下自信地部署新策略。了解更多关于 NVIDIA GB200 NVL72 的信息。

通过 Slurm 拓扑感知作业调度在 NVIDIA GB200 NVL72 上解锁 E 级性能