元鉴
返回中文阅读流

NVIDIA Developer Blog

NVIDIA Vera Rubin 平台如何解决代理 AI 的扩展问题

代理推理通过引入非确定性轨迹——动作、观察...从根本上改变了推理工作负载的运行动态。

中文内容

已翻译official company source英文原文2026-05-26

智能体推理通过引入非确定性轨迹——AI 智能体在完成任务过程中产生的动作、观察和决策——从根本上改变了推理工作负载的运行时动态。这些轨迹会在每个会话的数百次推理请求中叠加端到端延迟。

NVIDIA Vera Rubin NVL72 作为 NVIDIA Vera Rubin 平台的核心计算引擎,承担了该推理负载的大部分。最严苛的新兴多智能体工作负载需要在具有长上下文窗口的万亿参数 MoE 模型上持续实现低延迟和高吞吐量生成。

到目前为止,还没有任何平台能够以经济的方式服务这种新兴工作负载。NVIDIA Groq 3 LPX 与 Vera Rubin NVL72 搭配,是首个在帕累托曲线的这一点上同时实现高吞吐量和低延迟的平台。

本文探讨 NVIDIA Vera Rubin Platform 如何通过极致协同设计来解决这一挑战,将高吞吐量计算与跨数百到数千颗芯片的低延迟、确定性执行相结合。

为什么智能体工作负载需要可预测的纵向扩展网络

传统数据中心网络架构针对大型训练任务和大规模推理工作负载进行了优化,在这些场景中,少量网络抖动会在大批量处理中被平均化。相比之下,高端 AI 服务要求更高的模型能力和对用户可见性能的高度响应。在这一层级,智能体解码带来了一组根本不同的要求,包括:

  • 多轮模型请求
  • 更小的批量
  • 极低延迟

长上下文和大型 MoE 模型(用于高端 AI 服务)带来了额外的网络挑战(图 1)。多智能体流水线中的每个智能体都携带着自身不断扩展的 KV 缓存、系统提示、工具定义和对话历史。该 KV 缓存以及任何新 token 都必须通过万亿参数模型及其分布在不同加速器上的相关专家进行路由。

A conceptual diagram of a user request passing through agents and sub-agents with KV cache, prompts, tools, and history into a routed MoE model spread across multiple processors, emphasizing the need for fast, deterministic networking.A conceptual diagram of a user request passing through agents and sub-agents with KV cache, prompts, tools, and history into a routed MoE model spread across multiple processors, emphasizing the need for fast, deterministic networking.
图 1. 概念图,展示智能体工作负载如何增长上下文和状态。前沿 MoE 模型需要并行性。二者都依赖快速、确定性的处理器间网络

要实现这一点,网络级编排必须确保芯片之间跳数的可变性降至最低。在任何无法将模型容纳在单个芯片上的基于 SRAM 的架构中,这种跨芯片交换都是不可避免的。发生这种交换的物理机制会成为服务系统中的关键瓶颈。

该行业传统上通过以下方式应对这一挑战:

  • 使用运行时仲裁的网络结构,其中流量控制是反应式的,时序受到统计意义上的限制,而非得到保证。
  • 在芯片上集中大量计算与内存,将网络问题推迟到模型和上下文窗口规模需要向上和向外扩展时才暴露出来,从而导致多芯片性能下降。

要在智能体规模下打破吞吐量与延迟之间的权衡,需要与硅片、编译器和服务栈协同设计的网络结构。LPU C2C 通过极致的协同设计实现了这一点,使多万亿参数模型能够规模化运行。

NVIDIA Groq 3 LPX 如何应对纵向扩展挑战

NVIDIA Groq 3 LPX LPU C2C 旨在直接解决纵向扩展问题。它并非将互连视为必须在运行时吸收争用和时序不确定性的传统网络,而是将 Groq 的确定性执行模型扩展到多个 LPU。它通过三项紧密关联的技术实现这一点:

  • 高基数点对点链路
  • 由 LPU 编译器调度的数据移动
  • 硬件驱动的准同步时序

这些技术共同使 Groq 3 LPU 加速器能够灵活扩展到数千颗芯片,同时保持可预测的通信、固定延迟和低抖动执行。以下各节将逐一介绍。

高基数点对点链路

每个 LPU 提供 96 条 112 Gbps 的 C2C 链路,每个 LPU 可实现约 2.5 TB/s 的扩展带宽,机架级可达 640 TB/s。该设计基于 NVIDIA MGX 机架级架构,采用无缆托盘和点对点、高基数 C2C 拓扑结构,在托盘和机架之间紧密耦合计算与通信。

直接的对等连接、专用路径、负载下的对称路由以及较低的跳数,使高度高效的集合通信成为可能,同时编译器会以静态方式规划每一次传输,而不是在运行时进行规划。

由编译器调度的数据移动

LPU C2C 扩展由软件调度。LPU 之间的通信以 320 字节向量传输,这与用于计算的固定大小单元相同,并且作为与矩阵、向量和交换执行模块并列的一等功能单元,在编译时进行流量控制和调度。编译器会预先规划每一次传输,包括每个向量何时离开其源 LPU、经过哪条链路以及何时到达,因此负载均衡、路由选择和同步都是以静态方式解决的,而不是由硬件调度器在争用情况下处理。因此,编译器将数千个互连的 LPU 视为一个单一的已调度执行表面,更接近于单个芯片上功能单元之间的连线,而不是由独立芯片组成的网络。

Diagram of several compute trays linked into an LPU compiler view of interconnected LPUs, with annotations explaining that the chip-to-chip interconnect synchronizes chips to act like a single-core cluster and mitigates clock drift determinDiagram of several compute trays linked into an LPU compiler view of interconnected LPUs, with annotations explaining that the chip-to-chip interconnect synchronizes chips to act like a single-core cluster and mitigates clock drift determin
图 2. 概念图,展示了多个计算托盘如何通过 LPU 编译器和芯片间互连连接起来,从而将多个 LPU 同步为一个单一的确定性执行集群

硬件驱动的准同步时序

每个 LPU 都在自己的时钟上运行,而由于时钟会自然漂移,LPU C2C 扩展采用准同步或近同步 C2C 协议来抵消漂移,并将数千个 LPU 对齐,使其像单个核心一样运行。凭借可预测的数据到达和周期性的软件同步,运行时避免了防御性缓冲,从而使在编译时已知的网络延迟成为可能,其规模是大多数架构无法比拟的。通过消除不可预测的网络跳数、协调数据移动,并在编译时固定延迟,这些纵向扩展技术使 Groq 3 LPX 能够将数百或数千个 LPU 作为一个连贯、低抖动的系统来运行,以服务于必须高速协调工具、内存和多步骤计划的智能体工作负载。

智能体工作负载如何受益于 LPU C2C

LPU C2C 的核心收益是机架级确定性:128 GB 的统一片上 SRAM,其性能会随着扩展而保持可预测(图 3)。在张量并行域中,这一容量的 SRAM 是所有已投产的基于 SRAM 的 ASIC 中最大的,并体现了 LPU 架构在 SRAM 扩展方面的优越性。

Line chart titled “NVIDIA Groq 3 LPX Scale-up Bandwidth” with scale-up bandwidth in TB/s on the y-axis and number of LPUs on the x-axis, showing a near-linear rise to about 640 TB/s at around 256 LPUs, annotated with “Unified Memory Pool ofLine chart titled “NVIDIA Groq 3 LPX Scale-up Bandwidth” with scale-up bandwidth in TB/s on the y-axis and number of LPUs on the x-axis, showing a near-linear rise to about 640 TB/s at around 256 LPUs, annotated with “Unified Memory Pool of
图 3. 折线图显示 NVIDIA Groq 3 LPX 扩展带宽随 LPU 数量近乎线性增长,在 LPX 机架级别(256 个 LPU)达到约 640 TB/s,并形成统一的 128 GB SRAM 池。

LPU 编译器使用逐层分区等策略,将万亿参数模型划分到该池中,因此片上 SRAM 的集合体充当了远大于任何单个芯片所能提供容量的工作内存。对于智能体工作负载而言,这意味着前沿 MoE 模型能够以低延迟运行,而不必在上下文窗口或准确性方面作出取舍。在多智能体会话的突发扇出模式下,尾延迟保持有界,且每个 token 的延迟可预测。

低延迟本身的作用有限。AI 工厂部署还需要来自大型 GPU 池的计算能力、吞吐量和并发服务能力。这正是与 Vera Rubin NVL72 协同设计发挥作用的地方。Vera Rubin NVL72 每个机架最高可提供 3,600 PFLOPS 的 NVFP4 计算能力、20.7 TB 的 HBM4 和 1.6 PB/s 的内存带宽,可处理预填充、长上下文解码注意力以及高并发服务。当延迟预算进一步收紧时,NVIDIA Dynamo(图 4)使用 Attention-FFN Disaggregation(AFD)来编排异构解码循环。该 AFD 循环的编排方式如下:

  • Rubin GPU 在累积的 KV 缓存上运行解码注意力
  • LPX 加速 FFN 执行
  • 中间激活在每个 token 通过低开销、感知 KV 的传输进行交换
Diagram of NVIDIA Dynamo coordinating two rack-scale systems: Vera Rubin NVL72 with prefill GPUs and decode GPUs for attention, and Groq 3 LPX with decode LPUs for FFN, connected by KV-aware routing and interim decode activations exchangedDiagram of NVIDIA Dynamo coordinating two rack-scale systems: Vera Rubin NVL72 with prefill GPUs and decode GPUs for attention, and Groq 3 LPX with decode LPUs for FFN, connected by KV-aware routing and interim decode activations exchanged
图 4. 概念图展示 NVIDIA Dynamo 通过将预填充和注意力工作路由到 Vera Rubin NVL72 GPU、将 FFN 解码工作路由到 Groq 3 LPX,并进行感知 KV 的数据交换,从而编排异构计算

这种分工之所以可行,是因为这两类引擎面向不同的时序场景。预填充和解码注意力以吞吐量为主导,具有大批量处理,以及可在多个 token 上摊销的 KV-cache 读取,这种特征与 NVLink 的高带宽纵向扩展互连非常匹配。FFN 解码循环在小批量规模下运行,并进行顺序 token 生成,此时微小抖动开始主导用户可感知的延迟。编译时调度的 C2C 正是为这种场景专门设计的。

Groq 3 LPX、Vera Rubin NVL72 和 Dynamo 共同构成了一个平台,能够在同一服务路径中提供确定性的低延迟、前沿模型规模、长上下文支持和高吞吐量。在万亿参数 MoE 模型、40 万 token 上下文下实现每用户每秒 400 个 token 时,NVIDIA 协同设计带来的每兆瓦吞吐量最高比 NVIDIA GB200 NVL72 高 35 倍,并为智能体工作负载释放最高 10 倍的收入机会。

有关 Vera Rubin 平台规格和 LPX 的更多详细信息,请参阅以下博客文章:

  • 以极致协同设计应对智能体系统日益上升的复杂性
  • 深入了解 NVIDIA Groq 3 LPX:面向 NVIDIA Vera Rubin 平台的低延迟推理加速器
  • 深入了解 NVIDIA Vera Rubin 平台:六款新芯片,一台 AI 超级计算机
Like

标签

原文标题

How the NVIDIA Vera Rubin Platform is Solving Agentic AI’s Scale-Up Problem