元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

人工智能由 token 驱动。每一次提示、推理步骤和智能体交互都会生成 token。在过去一年里，token 消耗量增长了数倍，如今每年已超过 10 千万亿个 token。尽管大多数 token 来自人类与 AI 的交互，但新的时代将是大多数 token 由 AI 与 AI 交互生成的时代。

现代智能体系统会规划任务、调用工具、执行代码、检索数据，并在包含众多 AI 智能体的连续多步骤工作流中进行协调。这些交互会生成大量推理 token，扩展 KV 缓存，并需要基于 CPU 的沙盒环境来测试和验证由加速计算系统生成的结果。这对 GPU、CPU、纵向扩展域、横向扩展网络和存储提出了低延迟、高吞吐量的要求。

为这些现代智能体系统提供有用的智能，需要由专门构建的机架级系统组成的集群，它们共同作为一台连贯的 AI 超级计算机运行。本文介绍 NVIDIA Vera Rubin POD，这是一套由五种专门化机架级系统组成的系统，基于第三代 NVIDIA MGX 机架架构打造，面向智能体 AI 时代。

NVIDIA Vera Rubin POD 介绍

NVIDIA Vera Rubin 通过对横跨计算、网络和存储的七款芯片进行极致协同设计而构建，推出了最先进的 POD 规模 AI 平台。该平台配备 40 个机架、1.2 千万亿个晶体管、近 20,000 个 NVIDIA 裸片、1,152 个 NVIDIA Rubin GPU、60 exaflops 算力，以及 10 PB/s 的总纵向扩展带宽。

Vera Rubin POD 推出了五种全新的专用机架级系统，面向需要高吞吐量、极低延迟推理、密集型 CPU 沙箱以及海量上下文内存存储的智能体 AI 工作负载。这些机架共同构成一个统一系统，将为全球能效和成本效率最高的数据中心提供动力。

An image showing the five rack-scale systems that make up the NVIDIA Vera Rubin POD. — 图 1. NVIDIA Vera Rubin POD 包括五种机架级系统、一台 AI 超级计算机、一种 NVIDIA MGX 机架架构以及生态系统

POD 中的每款芯片都可随第三代 NVIDIA MGX 机架进行扩展，并由一个拥有 80 多家合作伙伴的生态系统提供支持，该生态系统具备将大规模 AI 系统推向市场的全球供应链经验。这使得部署更快速，并实现无缝过渡，因为每个 NVIDIA MGX 机架都共享相同的供电、冷却和机械规格。

有两种配备铜质骨干的 MGX 机架，专为性能、韧性和能效而设计。MGX NVL 机架通过 NVIDIA NVLink 连接，而新的 NVIDIA MGX ETL 机架则通过两种骨干之一连接：NVIDIA Spectrum-X Ethernet 或 NVIDIA Groq 3 LPU 直接芯片到芯片链路。

NVIDIA Vera Rubin NVL72：面向四大扩展定律的平台

NVIDIA Vera Rubin NVL72 是最新 AI 工厂的核心机架级计算引擎。它集成了 72 个 NVIDIA Rubin GPU 和 36 个 NVIDIA Vera CPU，并通过大规模 NVLink 铜质骨干连接，作为一个巨型 GPU 运行。NVIDIA Vera Rubin NVL72 专为 AI 的四大扩展定律而设计：预训练、后训练、测试时扩展和智能体扩展。它可针对复杂的混合专家（MoE）路由以及 AI 推理中计算密集型的上下文阶段进行优化。与 NVIDIA Blackwell 相比，它可提供最高 4 倍的训练性能提升、最高 10 倍的每瓦推理性能提升，并将 token 成本降至十分之一。

NVIDIA Groq 3 LPX：推理加速器机架

NVIDIA Groq 3 LPX 与 NVIDIA Vera Rubin 平台共同设计，旨在满足智能体 AI 对海量上下文和低延迟的需求，每个机架配备 256 个语言处理单元（LPU）。它与 Vera Rubin NVL72 搭配使用，消除了高速交互性与吞吐量之间的取舍。通过将高带宽、仅采用 SRAM 的 LPU 与具备大容量 HBM 的 Rubin GPU 融合，该系统在长上下文长度下实现低延迟和高吞吐量——在不牺牲系统吞吐量的情况下，为万亿参数模型大幅增强用户交互性。相较于 Blackwell，Vera Rubin NVL72 加 LPX 可为万亿参数模型提供最高 35 倍的 token 数量，并带来最高 10 倍的收入机会。欲了解更多信息，请参见 Inside NVIDIA Groq 3 LPX。

NVIDIA Vera CPU 机架：大规模智能体 AI 和强化学习

NVIDIA Vera CPU 机架在一个高密度液冷机架中集成多达 256 颗 NVIDIA Vera CPU，以提供可扩展且高能效的容量。单个机架可支持超过 22,500 个并发强化学习（RL）或智能体沙盒环境，从而最大化用于测试、执行并验证来自 Vera Rubin NVL72 和 LPX 机架结果的环境数量。Vera CPU 机架为大规模智能体 AI 和强化学习提供基础，与传统机架级 CPU 相比，其结果效率提升至两倍，速度提升 50%。了解更多关于 Vera CPU 如何为 AI 工厂提供高性能带宽和效率的信息。

NVIDIA BlueField-4 STX：AI 原生存储

NVIDIA BlueField-4 STX 机架采用 NVIDIA BlueField-4 处理器构建，该处理器结合了 Vera CPU 和 ConnectX-9 SuperNIC，并通过 Spectrum-X 以太网网络进行横向扩展。

它承载 NVIDIA CMX 上下文记忆存储平台，这是一类全新的 AI 原生存储基础设施，可在整个 POD 中无缝扩展 GPU 上下文容量，并通过将 KV 缓存卸载到专用的高带宽存储层来加速推理。CMX 针对海量上下文记忆（KV 缓存）的存储与服务进行了优化，将临时推理上下文视为一种 AI 原生的共享数据类型，可在多轮交互、会话和智能体之间复用。与传统存储方法相比，这可带来最高 5 倍的每秒 token 数提升，以及最高 5 倍的能效提升。

NVIDIA Spectrum-6 SPX：网络机架

将整个 POD 连接成一台单一超级计算机的是 NVIDIA Spectrum-6 SPX 网络机架。Spectrum-6 SPX 网络机架旨在加速 AI 工厂中的东西向和南北向流量。它可配置 Spectrum-X Ethernet 或 NVIDIA Quantum-X800 InfiniBand 交换机，以规模化方式提供低延迟、高吞吐的机架间连接。

Spectrum-6 SPX 机架现已包含 102.4 Tb/s 的 Spectrum-6 交换机，该交换机提供 512 条通道，并在单芯片和多芯片交换机产品中采用 200 Gb/s 共封装光学（CPO）。这种硅光子集成取代了可插拔收发器，提供最高的能效和韧性、低延迟和低抖动，以及近乎完美的有效带宽，使计算和存储环境中的 AI 工作负载保持完美同步。

通过协同设计这些专用机架，使其作为一个整体运行，Vera Rubin POD 有望加速智能体 AI 工作负载的每一个组成部分。这始于精简的 NVIDIA MGX 机架设计，它构成了 POD 中每个机架的基础。

第三代 NVIDIA MGX 机架级架构

生产级 AI 机架必须在多个关键领域表现出色：快速实现批量投产、经大规模验证的性能、深度硬件-软件协同设计、韧性和能效、无缝的数据中心部署和物流、面向未来架构的就绪能力等。

第三代 NVIDIA MGX 机架级架构通过贯穿其机械、电源和冷却设计的工程突破，在所有类别中树立了标准。

实现韧性和可扩展性

NVIDIA MGX 机架采用单宽设计，优先使用基于 PCB 的连接。它实现了完全模块化、无电缆、无软管、无风扇的计算托盘和 NVLink 交换托盘，从而最大限度提升可靠性、可扩展性和可维护性。单个 19 英寸宽机架还简化了运输和物流，加速了 AI 工厂的部署。

Image of NVIDIA MGX rack spine featuring four modular, preintegrated, prevalidated copper cable cartridges. — 图 2. NVIDIA MGX 机架背板可容纳数千根电缆，并可为 MGX NVL 机架配置 NVLink，为 MGX ETL 机架配置 Spectrum-X Ethernet 或直接 Groq 3 LPU 芯片间链路

该机架采用高度模块化的脊柱式背板，由多达四个预集成并预验证的铜缆盒组成，将各个托盘连接成一体。该脊柱式背板容纳数千根线缆，并且在 MGX NVL 和 MGX ETL 机架中采用相同的机械外形规格。

确保从芯片到电网的峰值能效

在组件层面，NVIDIA MGX 机架具备动态功率调配功能，系统会向最需要电力的组件供电。该功能可以在 CPU、GPU 和 NVLink 交换托盘之间转移功率，以确保机架中的组件以峰值能效运行，从而提升每瓦性能。

Chart showing how power smoothing can flatten large-scale power transients. — 图 3. NVIDIA MGX 机架具备 Intelligent Power Smoothing 功能，可确保机架中的组件以峰值能效运行

AI 训练和推理工作负载会产生大幅负载波动。如果管理不当，负载波动可能会对电网、数据中心供电基础设施和 IT 设备造成显著压力。

为防范功率波动，MGX 机架配备机架级储能，通过电容器缓冲功率瞬变。当工作负载同时需要大量功率时，电容器将提供额外功率，而电网取电保持平稳或逐步上升。当工作负载突然停止时，电容器将充电，而电网供电保持平稳或逐步下降。

NVIDIA Vera Rubin NVL72 现引入 Intelligent Power Smoothing。与前几代相比，它具备高出 6 倍的机架级储能（每个 GPU 400 J），并引入了一种新的闭环系统，使 GPU 能够持续监测电容器的荷电状态，从而更高效地平滑功率曲线。这实现了每分钟更小的交流电源功率变化，将峰值电流需求降低最高达 25%，并消除了为防范大规模功率瞬变而配置大型电池组的需求。

Diagram comparing two power-provisioning strategies across multiple server racks using stacked bar visuals. The top row (“Static Max-P”) shows fixed power allocations with stranded capacity and one rack labeled “No power budget,” while the — 图 4. Dynamic Max-Q 功率配置可以释放闲置电力并解锁更多 GPU 容量

在设施层面，以静态 Max-P 配置机架会搁置原本可用于生成令牌的电力容量。它假设工作负载是同质的，并且始终需要峰值功率，而现实中，AI 工厂运行的是一系列功率需求各不相同的混合工作负载。

通过以较低的动态 Max-Q 水平配置 MGX 机架，数据中心可以根据工作负载动态地为每个机架配置正确的电力量，从而最大化 AI 数据中心吞吐量。这释放了搁置的电力，在采用 45°C 液冷的相同功率预算下可解锁多达 30% 的额外 GPU，并提升每瓦性能。

为计算释放更大的能源预算

所有 MGX 机架均采用通用设计，可在 45°C（113°F）温水入口温度下运行，因此已为液冷而设计的数据中心可确保实现无缝过渡，无需重新设计冷却基础设施。图 5 显示了一种基础设施布局的示意图：向冷却液分配单元（CDU）提供 41°C（105.8°F）的水，CDU 再向 AI 机架供应 45°C（113°F）的冷却液。

An illustration showing full free-cooling mode. Water from an external dry cooler passes through a heat exchanger to cool the facility loop. Isolation valves bypass the chiller, significantly reducing power consumption by running only pumps — 图 5. 以 45°C 最高入口温度冷却 NVIDIA MGX 机架时的节能、低成本自然冷却场景

在 45°C 下运行，使许多气候条件下的数据中心能够使用环境空气和闭环干式冷却器进行冷却，减少对压缩机的需求，降低 PUE，并为计算释放更大的能源预算。较低的 35°C 入口温度要求数据中心将大量设施电力或水用于冷却，而较高的入口温度则最大化将电网电力直接转换为 token 的比例。这带来了显著的数据中心节电效果——足以在相同电力预算下额外部署最多 10% 的 Vera Rubin NVL72 机架，以生成更多 token。

MGX 机架可以实现 100% 液冷，并利用与前几代相同的数据中心冷却基础设施。第三代 MGX 机架配备新的内部托盘歧管、机架 UQD08 歧管，以及支持高达 5,000 A 的液冷母线。机架所用冷却液将取决于客户和数据中心，但许多仍将继续使用去离子水或丙二醇基流体（PG25），其在闭环系统中可持续使用长达 10 年，且液体维护需求极低。

开放标准

支撑这些特性的是开放、标准化的 MGX 机架架构。首个量产的机架级系统于 2024 年随 NVIDIA Blackwell 推出。NVIDIA 将该设计贡献给 Open Compute Project (OCP)，强化了其对开源技术的承诺，并使整个生态系统能够快速创新并加速采用。NVIDIA 已建立起一个由 80 多家全球合作伙伴组成的生态系统，打造了一个高效且全球多元化的供应链，该供应链在将机架级 AI 系统推向市场方面经验丰富。

NVIDIA MGX NVL 机架

正如独立第三方 SemiAnalysis InferenceMax 基准测试所展示的，NVIDIA 机架级系统可提供高 50 倍的每瓦性能，并将每 token 成本降低 35 倍（NVIDIA GB300 NVL72 对比 NVIDIA H200），这会直接转化为更高的收入和更好的运营利润率。

2024 年，NVIDIA 交付了首批 NVIDIA GB200 NVL72 机架级系统。2025 年，NVIDIA GB300 NVL72 已交付。现在，NVIDIA Vera Rubin NVL72 已全面投产，按计划将于 2026 年下半年交付。

NVIDIA Vera Rubin NVL72 的精简设计

NVIDIA Vera Rubin NVL72 是一项工程奇迹，旨在无缝融入现有数据中心占地空间。它的晶体管数量将比 NVIDIA GB200 NVL72 近乎多出一倍，同时通过极致协同设计实现每瓦性能提升 10 倍。该机架在 18 个计算托盘中集成了 72 个 NVIDIA Rubin GPU、36 个 NVIDIA Vera CPU、ConnectX-9 SuperNIC 和 BlueField-4 DPU，并配有 9 个 NVLink 交换机托盘。总体而言，该机架容纳 130 万个独立组件、近 1,300 颗芯片，全部封装在一个单宽度第三代 NVIDIA MGX 机架中，重量约 4,000 磅，大致相当于一辆皮卡的重量。

Image showing the full Vera Rubin NVL72 rack with 18 compute trays and 9 NVLink switch trays. — 图 6. NVIDIA Vera Rubin NVL72 机架

计算和 NVLink 交换机托盘

使这 72 个 GPU 能够作为一个统一引擎运行的是第六代 NVLink。它为每个 GPU 提供 3.6 TB/s 的带宽，并为每个机架提供 260 TB/s 的扩展带宽——数据量超过整个全球互联网的带宽。这种高速数据传输发生在机架背面的 NVLink 主干中，该主干配备四个模块化预集成线缆盒，容纳 5,000 根铜缆，总长度超过两英里。

视频 1. NVIDIA Vera Rubin 计算托盘与 NVIDIA Grace Blackwell 计算托盘之间的主要差异

Vera Rubin NVL72 内部的计算托盘相较 NVIDIA Blackwell 进行了完全重新设计。它采用坚固的 PCB 中板，设计用于装入单宽机架，从而实现无电缆、无软管、无风扇的设计。这种简化将计算托盘组装时间从近两小时降至仅五分钟——组装和维护速度最高提升 20 倍。

每个计算托盘配备两个 NVIDIA Vera Rubin 超级芯片，每个超级芯片包含 17,000 个组件——约为现代智能手机组件数量的五倍。这些超级芯片通过 PCB 中板连接到前部模块化舱位，舱内装有八个 ConnectX-9 SuperNIC 和一个 BlueField-4 DPU。

Image of the NVLink Switch tray showing four NVLink Switch chips. — 图 7. NVIDIA Vera Rubin NVLink 交换机托盘

Vera Rubin NVL72 引入了新的机架级弹性功能，旨在最大限度提高大型 AI 集群的正常运行时间和有效吞吐量。NVLink 交换机托盘支持运行弹性功能，使管理员能够将交换机置于维护模式，并在机架持续运行的同时进行更换。该架构还支持在多个交换机托盘不可用的情况下继续运行，从而最大限度减少维护期间的中断。

在芯片层面，NVIDIA Rubin GPU 持续运行非中断式健康检查，NVIDIA Vera CPU 则具备系统内测试和 SOCAMM 内存，以提高可维护性。结合起来，这些从芯片到机架的创新降低了运营开销，并在 Blackwell 集群已体现的弹性改进基础上进一步提升。

正文：NVIDIA Vera Rubin Ultra NVL576

NVIDIA Vera Rubin Ultra 引入了一种新的两层全互连 NVLink 拓扑，将使开发者能够纵向扩展至 576 个 GPU。Vera Rubin Ultra NVL576 将把八个独立的 MGX NVL 机架组合在一起，每个机架配备 72 个 Rubin Ultra GPU，全部置于一个包含 576 个 GPU 的 NVLink 域中，并采用铜缆和直接光连接。它将基于相同的 MGX 机架级生态系统构建，以实现最快投产。

Polyphe 展示了这种大规模多机架 NVLink 拓扑，它是 NVIDIA 内部基于 GB200 的全功能原型，用于多机架 NVL576 纵向扩展架构。

An image showing eight racks connected together in one massive NVLink domain. — 图 8. NVIDIA Polyphe 原型，一个基于 GB200 的全功能多机架 NVL576 纵向扩展系统

NVIDIA Kyber NVL1152：下一代

为了扩展到 NVL576 以上，将推出一款新的 MGX 机架 NVIDIA Kyber。NVIDIA Kyber 是下一代 MGX NVL 机架设计，将使每个机架的 NVLink 域翻倍，以容纳 144 个 GPU。

Next-generation NVL1152 rack architecture connecting eight Kyber racks in a single NVLink domain. — 图 9. NVIDIA Kyber NVL1152

NVIDIA Kyber 将使用类似的直接光互连进行机架到机架的纵向扩展，扩展为一个大规模全互连的 NVL1152 超级计算机。Kyber 为使用 NVIDIA Feynman 的下一代超大规模纵向扩展 AI 计算奠定基础。Kyber 将首先随 Vera Rubin Ultra 以独立 NVL144 系统的形式推出，为客户提供 Vera Rubin Ultra NVLink 纵向扩展域的三种选择：NVL72、NVL144 以及旗舰级 NVL576。

NVIDIA MGX ETL 机架

尽管 NVIDIA MGX NVL 机架提供了大规模纵向扩展计算域，但智能体 AI 工作流需要高度专用的节点，以实现极低延迟推理、CPU 沙箱化以及用于 KV 缓存的加速上下文内存。为支持这些多样化需求，Vera Rubin 推出了 MGX ETL 机架架构，这是一种全新的、完全可配置的 MGX 机架，采用 Spectrum-X 以太网主干，或采用直接芯片到芯片主干，并利用与 MGX NVL 机架相同的机架级生态系统。

A side-by-side image of the MGX NVL and MGX ETL racks, showcasing the shared components supported with the MGX ecosystem. — 图 10. NVIDIA MGX ETL 机架级系统在利用相同 MGX 机架基础设施的同时，新增了对 Spectrum-X 以太网的支持，其中包括容纳铜缆主干的线缆盒。

MGX ETL 与 MGX NVL 机架共享相同的外形规格和物理基础设施，并设计为在相同的机械、电力和冷却包络内运行。两种机架将共享由经验丰富的 MGX 生态系统构建的相同关键机架组件：机架、机箱、托盘、线缆盒、液冷歧管、快速断开接头、母线排（标准型和液冷型）、支撑支架、侧轨、电源架、泄漏收集托盘、托盘把手等。

MGX ETL 将采用预集成且预验证的铜缆模块，并配备 Spectrum-X Ethernet 主干或直接芯片到芯片主干。MGX ETL 将利用成熟的 MGX 生态系统和供应链，该生态系统和供应链已在多年内具备大批量构建机架架构的经验。

NVIDIA Spectrum-X Ethernet 主干

配备 Spectrum-X Ethernet 主干的 MGX ETL 将成为 Vera Rubin POD 中 Vera CPU 机架和 BlueField-4 STX Storage 机架的基础。该机架具有高度可配置性，也可用于容纳多达 256 个 Rubin GPU（HGX Rubin NVL8 系统）、XPU 或更多设备。

NVIDIA Vera Rubin POD：七颗芯片，五个机架级系统，一台 AI 超级计算机