中文内容
每一波 AI 都创造了新的扩展定律。预训练通过更大的数据集、更多参数以及大规模并行 GPU 系统来扩展智能。后训练通过指令微调以及为生成式推理重新平衡 GPU 来扩展实用性。测试时扩展通过给予模型更多生成 token 用于思考来提升推理能力。
如今,智能体 AI 和强化学习扩展的是行动。模型会采取更多步骤、调用更多工具、运行更多评估,并与执行环境交互以完成任务。
本文解释了 NVIDIA Vera CPU 如何通过缩短 CPU 执行时间、提高任务吞吐量、提升 AI 工厂整体产出,并支持更智能、思考时间更长的智能体,帮助 AI 工厂扩展智能体 AI 和强化学习。

为什么在智能体时代 CPU 更加重要
GPU 仍然是模型推理和训练的核心。但在智能体 AI、强化学习以及数据密集型 AI 服务中,围绕模型的大量执行工作运行在 CPU 上,例如:
- 沙箱化代码与工具执行
- 数据检索与数据处理
- 结果计算
- 调度与编排
这是一个精确的循环:
- 一个提示(可能来自用户、推理 token,或上一轮的结果)启动生成:“我应该编译并运行 hello.c。”
- GPU 生成要在 CPU 上执行的工具调用参数:gcc -o hello hello.c ; ./hello
- CPU 执行工具调用,生成的结果会反馈给 GPU,用于在强化学习期间更新权重,或被智能体用于生成下一个提示:输出:“Hello, world!”——任务返回(0)——成功
- GPU 根据结果生成推理 token:“嗯!看起来成功了!”
随着智能体能力增强,它们会采取更多步骤、调用更多工具并运行更多检查。CPU 时间会在一次请求中不断累积。
这使 CPU 成为关键路径的一部分。它不再只是为 GPU 供给数据的主机处理器。它会影响延迟、加速器利用率,以及 AI 工厂每瓦和每美元的产出。
过去十年,数据中心 CPU 市场很大程度上围绕云经济学进行优化:更多核心、更多虚拟机,以及更低的单核心成本。这对通用云服务仍然重要,但单核心性能并未以同样的速度提升。
摩尔定律的终结进一步加剧了这一点,它限制了 CPU 代际性能提升,即便 GPU 架构和工作负载受益于持续的协同优化周期。
AI 工厂将衡量指标从每美元核心数转向每美元 token 数——从数据中心能租出多少 CPU 核心,转向它能产出多少 AI 输出。
这要求面向 AI 工厂采用新的 CPU 设计定位:
- 高核心数,用于运行数千个并发智能体、RL 环境、沙箱和服务。
- 高单核心性能,因为每个智能体步骤都受顺序执行限制。
- 高能效内存带宽,用于保持数据流动,而不让 CPU 基础设施成为瓶颈。

NVIDIA Vera CPU:为 AI 智能体而构建
NVIDIA Vera CPU 面向现代工作负载的现实需求而设计,具备快速的单核心性能、高并发能力和高能效内存带宽,以保持 AI 工厂持续运转。
Vera CPU 结合了 88 个 NVIDIA Olympus 核心和最高 1.2 TB/s 的 LPDDR5X 内存带宽,使核心在工具调用、原生代码以及 Python 或 JavaScript 等语言的沙箱化执行、数据检索、数据处理和编排过程中持续获得数据供给。
关键要求是始终维持快速的单核心性能。不同于云虚拟机,CPU 插槽会保持满负载,执行许多并发智能体的工作。在高系统负载下仍能保持高速的核心可缩短任务完成时间,在更快交付结果的同时释放资源以服务下一个请求。
对于智能体而言,这意味着多步骤请求中的延迟更低。对于强化学习而言,这意味着每个训练窗口中完成更多评估并产生更多数据,帮助模型更快达到更高的质量标准。对于 AI 工厂而言,快速核心可避免加速器因编排、工具执行或数据移动而等待。
要实现这一点,需要将核心、内存子系统和互连结构共同设计,以适应分支密集型代码、高带宽数据移动以及负载下可预测的性能。
这始于 Vera CPU 内部的 NVIDIA 定制 Olympus 核心。

NVIDIA Olympus 核心与内存子系统
NVIDIA Olympus 核心相比 NVIDIA Grace 可提供最高 50% 更高的 IPC,结合宽前端、先进分支预测、深度乱序指令调度和专用内存预取,在分支密集、对内存敏感的智能体代码上维持高吞吐量。
Olympus 使用神经网络分支预测器来减少分支密集型代码中的停顿。结合其他预测机制,它可以在零惩罚的情况下每周期持续处理两个被采用分支,从而为 PyTorch、图工作负载和脚本引擎等深层软件栈维持吞吐量。
Olympus 还包含一个 10 路宽解码单元和深度乱序引擎,旨在维持较高的每周期指令数。大型缓冲区和先进指令调度有助于核心在代码路径、依赖关系和内存访问模式变化时保持持续推进。
在负载下维持高 IPC 需要持续为核心供给数据。Vera CPU 提供最高 1.2 TB/s 的 LPDDR5X 内存带宽,并可在负载下维持超过 90% 的峰值内存带宽。与 x86 CPU 相比,它还提供低 40% 的峰值内存延迟,确保 Olympus 核心在检索、分析、沙箱执行和编排过程中及时获得数据供给。
Olympus 还新增了一种新型图预取器,面向图分析和智能体记忆遍历中常见的间接内存访问模式而构建。结合高每核心内存带宽,Vera CPU 在图遍历工作负载上的性能相比基于 x86 的架构提升超过 3 倍。
NVIDIA Scalable Coherency Fabric(SCF)通过单片式网格连接所有核心和统一缓存,与将计算分散在多个裸片上的 CPU 相比,可提供可预测延迟和快 50% 的核心间数据移动。对于强化学习和智能体 AI,这种可预测性有助于在满负载下保持评估循环持续运行。
Olympus 核心、NVIDIA SCF 和 LPDDR5X 内存子系统共同使 Vera CPU 在满负载下的智能体工作负载中,相比竞争产品提供超过 1.8 倍的沙箱性能,如图 4 所示。

系统效率
除性能之外,智能体 AI 对基础设施效率也施加了越来越大的压力。随着 AI 工厂扩展到数千个 CPU,内存功耗可能成为平台功耗、冷却需求和运营成本的重要组成部分。
Vera CPU 将其架构与高带宽 SOCAMM LPDDR5X 内存配合使用,以相比传统 DDR 服务器设计降低内存功耗。LPDDR5X 子系统通常消耗不到 30 瓦,而 DDR5 配置则远超 100 瓦。基于 MRDIMM 的系统可能进一步推高内存功耗。
凭借可配置的 250 W 至 450 W TDP 范围,Vera CPU 在提供智能体推理和强化学习环境所需带宽的同时,降低 CPU 与内存子系统的综合功耗。对于 AI 工厂而言,这意味着更好的每瓦性能、更低的运营成本,以及对电力和冷却基础设施更高效的利用。
面向智能体的 AI 工厂 CPU
智能体 AI 时代要求 CPU 设计发生转变:从最大化每美元核心数,转向最大化 AI 工厂每瓦和每美元的产出。NVIDIA Vera CPU 是面向智能体的 CPU,结合了快速单核心性能、高并发能力和高能效内存带宽。凭借定制 Olympus 核心、LPDDR5X 内存和 NVIDIA Scalable Coherency Fabric,Vera CPU 的智能体沙箱性能比传统 x86 架构高出 1.8 倍以上,帮助 AI 工厂完成更多工具调用、返回更多评估结果,并保持加速器持续运转。
了解更多关于 Vera CPU、NVIDIA Vera Rubin NVL2,以及 Phoronix 对 Vera CPU 基准测试的信息。
相对性能基于实测数据,且可能发生变化。NVIDIA Vera CPU 搭配 LPDDR5X 的性能以最新 x86 CPU 为基准。
标签





















