元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

随着代理式 AI 工作流将上下文窗口推向数百万个 token、模型规模迈向数万亿参数，AI 原生组织日益面临扩展挑战。这些系统依赖代理式长期记忆来提供可跨轮次、工具和会话持续存在的上下文，使代理能够基于先前的推理继续推进，而不是在每次请求时都从头开始。

随着上下文窗口增大，键值（KV）缓存容量需求会按比例增长，而重新计算这些历史内容所需的计算需求增长得更快，因此 KV 缓存复用和高效存储对于性能与效率至关重要。

这加大了现有内存层级的压力，迫使 AI 提供商在稀缺的 GPU 高带宽内存（HBM）与通用存储层之间做出选择；后者针对耐久性、数据管理和保护进行了优化，而不是为服务短暂的、AI 原生的 KV 缓存而优化——这会推高功耗、增加每 token 成本，并导致昂贵的 GPU 利用不足。

NVIDIA Vera Rubin 平台使组织能够扩展 AI 的每个阶段，从预训练，到后训练和测试时扩展，再到实时代理式推理。该平台将 AI 基础设施组织为计算、网络和存储机架，作为 AI 工厂的可配置构建块。

在 Vera Rubin 平台中，NVIDIA BlueField-4 STX 机架引入了一种新的上下文内存存储基础设施，专为大规模推理的需求而构建。NVIDIA CMX 上下文内存存储平台是一个新的存储层，采用 NVIDIA STX 参考架构，用于长上下文、智能体式推理，可在整个 POD 内无缝扩展 GPU 内存。

由 NVIDIA BlueField-4 处理器提供支持，NVIDIA CMX 建立了一个优化的上下文内存层，通过保存对延迟敏感、可复用的推理上下文并对其进行预暂存以提高 GPU 利用率，从而增强现有的网络化存储层。它提供额外的上下文存储，使每秒处理 token 数（TPS）提高 5 倍，并且比传统存储的能效高 5 倍。NVIDIA Spectrum-X Ethernet 提供可预测、低延迟和高带宽的 RDMA 连接，确保在大规模环境中对共享 KV cache 进行一致、低抖动的数据访问。

本文解释了不断增长的智能体式 AI 工作负载和长上下文推理如何给现有内存和存储层带来越来越大的压力，并介绍了 CMX 如何作为 Vera Rubin AI 工厂中的新上下文层，提供更高吞吐量、更高能效以及可扩展的 KV cache 复用。

一种新的推理范式与上下文存储挑战

随着模型从简单的聊天机器人演进为复杂的多轮智能体工作流，组织面临新的可扩展性挑战。随着基础模型达到数万亿参数、上下文窗口扩展到数百万个 token，四大 AI 扩展定律——预训练、后训练、测试时扩展和智能体扩展——正在推动计算密集型推理需求激增。智能体不再是无状态的聊天机器人，而是依赖对话、工具和中间结果的长期记忆；这些记忆在服务之间共享，并会随时间被反复调用。在基于 Transformer 的模型中，这种长期记忆以推理上下文的形式实现，也称为 KV cache。它会保留上下文，使模型无需为每个新 token 重新计算历史信息。随着序列长度增加，KV cache 会线性增长，迫使其在更长会话中持久保留，并在推理服务之间共享。

这一演进使 KV cache 成为一类独特的 AI 原生数据，其特征在于一种特定的二元性：它对性能至关重要，却又本质上是临时性的。在智能体系统中，KV cache 实际上成为模型的长期记忆，会在许多步骤中被复用和扩展，而不是在单次提示响应后被丢弃。

与不可变的企业记录不同，推理上下文是派生且可重新计算的，因此需要一种存储架构，在传统数据持久性之上，优先考虑能效、成本效率以及速度和规模。在现代 AI 基础设施中，这意味着每一兆瓦电力最终都要以其能够交付多少有用 token 来衡量。

满足这些要求正在将当今的内存和存储层级推向极限。这就是各组织正在重新思考如何在 GPU 内存、主机内存和共享存储之间放置上下文的原因。

要理解这一差距，了解推理上下文目前如何在 G1–G4 层级中流动会很有帮助。AI 基础设施团队使用 NVIDIA Dynamo 等编排框架，来帮助在这些存储层级之间管理这一上下文：

G1（GPU HBM）用于活跃生成中对延迟敏感的热 KV
G2（系统 RAM）用于在 HBM 之外暂存和缓冲 KV
G3（本地 SSD）用于在较短时间尺度内重复使用的温 KV；由于 G3 绑定到单个节点，因此更难管理和维护，也不易扩展
G4（共享存储）用于冷数据工件、历史记录和结果，这些内容必须持久保存，但不在即时关键路径上

G1 针对访问速度进行了优化，而 G3 和 G4 则针对持久性进行了优化。随着上下文增长，KV cache 会迅速耗尽本地存储容量（G1-G3）；而将其下沉到企业级存储（G4）会引入不可接受的开销，并推高成本和功耗。

随着 KV cache 在内存和存储层次结构中离 GPU 越来越远，其使用成本也变得越来越高。

在存储层次结构的顶端，GPU HBM（G1）提供纳秒级访问和最高效率，使其成为直接用于 token 生成的活跃 KV cache 的理想选择。随着上下文增长并超出 HBM 的物理限制，KV cache 会溢出到系统 DRAM（G2）以及本地/机架连接存储（G3）中，在这些层级中访问延迟会增加，每个 token 的能耗和成本也开始上升。尽管这些层级扩展了有效容量，但每增加一次跨层访问都会引入开销，从而降低整体效率。

在该层次结构的底部，共享对象和文件存储（G4）提供持久性和容量，但其延迟为毫秒级，并且在推理中的效率最低。虽然它适合冷数据或共享制品，但将活跃或频繁复用的 KV cache 推入这一层级会推高功耗，并直接限制 AI 的成本高效扩展。

关键要点是，延迟与效率紧密耦合：随着推理上下文从 GPU 向外迁移，访问延迟会增加，每个 token 的能耗和成本会上升，整体效率会下降。性能优化型内存与容量优化型存储之间日益扩大的差距，正迫使 AI 基础设施团队重新思考如何在整个系统中放置、管理和扩展不断增长的 KV 缓存上下文。

AI 工厂需要一个互补的、专门构建的上下文层，将 KV 缓存视为其自身的 AI 原生数据类别，而不是迫使其进入稀缺的 HBM 或通用企业存储。

推出 NVIDIA CMX 上下文内存存储平台

NVIDIA CMX 上下文内存存储平台是一套完全整合的存储基础设施，采用 NVIDIA STX 参考架构。它使用 NVIDIA BlueField-4 数据处理器，创建一个在 pod 级别运行、专门构建的上下文内存层，以弥合高速 GPU 内存与可扩展共享存储之间的差距。这加速了 pod 内跨节点的 KV 缓存数据访问和高速共享，以提升性能，并针对大上下文推理不断增长的需求优化功耗。

该平台建立了一个新的 G3.5 层，即专为 KV cache 优化的以太网连接闪存层。该层充当 AI 基础设施 pod 的智能体长期记忆，容量足以同时保存多个智能体共享且不断演进的上下文，同时又足够接近，使上下文能够频繁预先载入 GPU 和主机内存，而不会阻塞解码。

它为每个 GPU pod 提供 PB 级共享容量，使长上下文工作负载在从 HBM 和 DRAM 中逐出后仍能保留历史记录。该历史记录存储在一个更低功耗、基于闪存的层中，用以扩展 GPU 和主机内存层级。G3.5 层提供巨大的总带宽，效率优于传统共享存储。这将 KV cache 转变为一种共享的高带宽资源，编排器可以在智能体和服务之间协调使用，而无需在每个节点上独立重新生成。

随着大量对延迟敏感的临时 KV cache 现在由 G3.5 层提供服务，持久化的 G4 对象和文件存储可以保留给真正需要长期持久保存的内容。这包括非活跃的多轮 KV 状态、查询历史、日志以及其他多轮推理产物，这些内容可能会在后续会话中被调用。

这降低了 G4 的容量和带宽压力，同时仍在关键位置保留应用层历史。随着推理规模扩大，G1–G3 KV 容量会随 GPU 数量增加而增长，但仍然太小，无法覆盖全部 KV 需求。CMX 填补了 G1–G3 与 G4 之间缺失的 KV 容量。

NVIDIA Dynamo 等推理框架使用其 KV 块管理器与 NVIDIA Inference Transfer Library (NIXL) 协同，编排推理上下文如何在内存与存储层级之间移动，并将 CMX 用作 KV cache 的上下文内存层。这些框架中的 KV 管理器会预先暂存 KV 块，在解码阶段之前将它们从 CMX 调入 G2 或 G1 内存。

与传统存储相比，CMX 具备更高带宽和更好的能效，并以此支持这种可靠的预暂存，旨在最大限度减少停顿并降低空闲时间，使长上下文和智能体工作负载的持续 TPS 最高可提升 5 倍。当与运行 KV I/O 平面的 NVIDIA BlueField-4 处理器结合使用时，该系统能够高效终止 NVMe-oF 和对象/RDMA 协议。在推理层，NVIDIA Dynamo 和 NIXL 管理预填充、解码和 KV 缓存，同时协调对共享上下文的访问。在其下方，使用 NVIDIA Grove 的拓扑感知编排层会基于对 KV 局部性的感知，在机架间放置工作负载，使工作负载即使在节点之间移动时也能继续复用上下文。在计算节点层面，KV 分层横跨 GPU HBM、主机内存、本地 SSD、CMX 和网络存储，为编排器提供连续的容量和 la

为 NVIDIA CMX 上下文内存存储平台提供动力

NVIDIA BlueField-4 以超高速连接、集成式多核 NVIDIA CPU 和高带宽内存为 CMX 提供动力。其专用硬件加速引擎提供线速加密和 CRC 数据保护，在不影响吞吐量的情况下确保数据安全性和完整性。

这些加密和完整性加速器旨在作为 KV 流水线的一部分使用，在不增加主机 CPU 开销的情况下保护并验证 KV 流。通过利用标准 NVMe 和 NVMe-oF 传输（包括 NVMe KV 扩展），CMX 在提供 KV 缓存所需的专用性能的同时，保持与标准存储基础设施的互操作性。

该架构使用 BlueField‑4 加速 KV I/O 和控制平面操作，覆盖 Rubin 计算节点上的 DPU 以及 CMX 存储托盘中的控制器，从而降低对主机 CPU 的依赖，并最大限度减少序列化和主机内存拷贝。此外，Spectrum‑X Ethernet 提供面向 AI 优化的 RDMA Fabric，将 CMX 闪存机箱与 GPU 节点连接起来，提供可预测的低延迟、高带宽连接。

NVIDIA DOCA Memos 框架引入了一个 KV 通信和存储层，将上下文缓存视为 KV 管理、共享和放置的一等资源，利用 KV 块和推理模式的独特属性。DOCA Memos 与推理框架对接，由 BlueField-4 在底层闪存介质之间高效传输 KV 缓存。

这种无状态且可扩展的方法与 AI 原生 KV cache 策略相一致，并利用 NIXL 和 Dynamo 在 AI 节点之间实现高级共享并提升推理性能。DOCA Memos 支持开放接口以实现更广泛的编排，为存储合作伙伴提供灵活性，使其能够扩展其推理解决方案以覆盖 G3.5 上下文层。

Spectrum-X Ethernet 可作为基于 RDMA 访问 AI 原生 KV cache 的高性能网络结构，为 NVIDIA CMX 上下文内存存储平台实现高效的数据共享与检索。Spectrum-X Ethernet 专为 AI 打造，可在规模化环境中提供可预测、低延迟、高带宽的连接。它通过先进的拥塞控制、自适应路由和优化的无损 RoCE 实现这一点，从而在高负载下最大限度减少抖动、尾延迟和丢包。凭借极高的有效带宽、深度遥测以及硬件辅助的性能隔离，Spectrum-X Ethernet 可在大型、多租户 AI 网络结构中实现一致、可重复的性能，同时保持完全基于标准，并可与开放网络软件互操作。Spectrum-X Ethernet 使 CMX 能够以持续的高性能进行扩展，最大限度提高吞吐量和响应能力

提供高能效、高吞吐量的 KV cache 存储

电力供应是扩展 AI 工厂的主要约束因素，使能源效率成为千兆规模推理的决定性指标。传统的通用存储栈牺牲了这种效率，因为它们运行在基于 x86 的控制器上，并在元数据管理、复制和后台一致性检查等功能上消耗大量能源，而这些功能对于临时的、可重建的 KV 数据而言并不必要。

KV cache 从根本上不同于企业数据：它是暂时的、派生的，并且在丢失后可以重新计算。作为推理上下文，它不需要为长期保存记录而设计的持久性、冗余或广泛的数据保护机制。将这些繁重的存储服务应用于 KV cache 会引入不必要的开销，增加延迟和功耗，同时降低推理效率。通过将 KV cache 识别为一种独特的 AI 原生数据类别，CMX 消除了这种额外开销，与通用存储方法相比，可实现最高 5 倍的能效提升。

这种效率不仅延伸到存储层，也延伸到计算结构本身。通过可靠地预先暂存上下文并减少或避免解码器停顿，CMX 可防止 GPU 在空闲周期或对历史进行冗余重计算上浪费能量，从而实现最高 5 倍的 TPS 提升。这种方法确保电力被用于主动推理，而不是基础设施开销，从而最大化整个 AI pod 的有效每瓦 token 数。

以更高性能和更优 TCO 实现超大规模智能体 AI

由 NVIDIA BlueField‑4 驱动的 CMX 为 AI 原生组织提供了一种扩展智能体 AI 的新方式：一种 pod 级上下文层，可扩展有效 GPU 内存，并将 KV 缓存转变为跨 NVIDIA Rubin pod 共享的高带宽长期内存资源。通过卸载 KV 移动，并将上下文视为可复用、非持久化的数据类别，CMX 减少了重计算和解码停顿，将更高的每秒 token 数直接转化为更多已服务的查询、更多并发运行的智能体，以及规模化场景下更短的尾部延迟。

这些收益共同改善了总拥有成本（TCO）：使团队能够在同一机架、机列或数据中心内纳入更多可用 AI 容量，延长现有设施的使用寿命，并围绕 GPU 容量而非存储开销来规划未来扩展。

要了解更多关于由 NVIDIA BlueField-4 提供支持的 CMX 的信息，请参阅新闻稿和解决方案概述。观看 NVIDIA GTC 2026 主题演讲（CEO Jensen Huang 主讲），并探索相关会议。

已于 2026 年 3 月 16 日更新，新增 AI 基础设施。

推出由 NVIDIA BlueField-4 驱动的 CMX 上下文内存存储平台，助力 AI 下一前沿