中文内容
AI正在不断演进,推理模型正推高对token的需求,对AI基础设施的每一层都提出了全新要求。算力必须比以往更高效地进行扩展,以最大化token产出,并提升模型创作者与用户的生产力。
现代GPU虽已处于满负荷运行状态,且每一代的吞吐量都在不断提升,但系统性能正日益受到智能体循环中CPU受限的串行任务的制约——这是计算机科学核心原则Amdahl’s law的一个经典体现。
这一趋势在两类工作负载中尤为显著:一是强化学习(RL),用于为模型训练编程或工程等专业技能;二是智能体操作,它使AI智能体能够借助网页浏览器、数据库、代码解释器及其他软件等工具,在真实环境或沙盒中完成任务。
这两种工作负载结合了历史上相互独立的两种CPU特性。单个环境需要强大的单线程性能来快速执行复杂代码,类似于工作站;同时,现代AI系统会并发启动数千个此类环境,从而产生典型服务器基础设施级别的大规模吞吐量需求。
NVIDIA Vera CPU专为现代AI工作负载设计,其关键设计特性包括:
- 极致单核性能:快速执行单个任务至关重要,且在大量并发用户与智能体任务持续负载下,性能仍需保持稳定。
- 每核心高内存与互联带宽:确保在高效传输海量数据的负载下保持一致的SLA,以支持实时分析与上下文切换任务。
- 高效机柜级协同设计:AI工厂需快速部署与管理容量,在满足智能体需求的同时最大化能效。
采用Vera构建的数据中心可最大化AI基础设施投资效益,无论Vera CPU是直接连接加速器,还是作为网络末端的独立CPU算力执行任务。
后训练阶段的现实
强化学习要求模型不断评估其输出,识别哪些结果成功、哪些失败。例如,用于学习软件开发任务的模型会利用运行在加速器上的模型生成大量代码,随后将这些代码发送至 CPU 集群进行构建、运行和测试——从而构成一个反馈-奖励循环(见图 1)。
这些任务涵盖代码库研究、编译、运行时执行、脚本编写、数据转换以及其他常见操作。总体而言,该流程需要大量并发的沙盒式环境,每个环境都必须配备全套工具。通常,对于加速器生成的一组请求,每个轻量级线程任务均由单个 CPU 核心完成端到端的执行。

为最大化加速器利用率并推动模型快速迭代,该循环中的 Token 生成与训练阶段需在紧凑的调度(或策略)下运行。通常,部分在 CPU 上运行的评估任务完成过晚,无法影响循环的下一步骤。当出现此情况时,模型达到同等质量所需的训练时间会变长,宝贵的 Token 也会被浪费。
智能体循环要求其所采用的 CPU 能够兼顾独特的性能组合:高单核性能、海量数据带宽,以及具备极低尾部延迟的确定性执行能力。
这些需求是 NVIDIA Vera CPU 设计(图2)的核心重点,与竞品平台相比,其可提供高达 50% 更快的沙盒性能、1.2 TB/s 的内存带宽,以及 88 个搭载 NVIDIA 空间多线程(SMT)的 Olympus 核心,以满足 AI 工厂所需的任务并发处理能力。

NVIDIA Olympus 核心
对支持AI的高性能核心的需求催生了NVIDIA Olympus核心,这是NVIDIA首款完全定制的数据中心CPU核心。Olympus随Vera平台首次亮相,并搭载第二代NVIDIA可扩展一致性互连(SCF),该互连架构最初是为NVIDIA Grace CPU开发的。
专为在包含控制流逻辑的内存密集型工作负载上实现持续的高每周期指令数(IPC)运行而设计,Olympus采用10宽指令取指与解码前端,并配备每周期可评估两条已跳转分支的神经分支预测器。它与Arm v9.2指令集完全兼容,可在基于Arm的容器、二进制文件、库及操作系统上为现有软件提供高性能支持。
借助NVIDIA SMT,用户可在运行时按需选择单线程性能或线程数量。这使每个线程在重负载下均能获得稳定的性能、更强的隔离性以及可预测的尾部延迟。传统SMT依赖时分共享资源及线程间频繁的上下文切换,容易导致性能波动。
NVIDIA 可扩展一致性互连架构与内存子系统
Vera CPU 基于单片计算芯片与互连架构构建,相邻的 dielet 负责实现内存和 I/O 子系统,同时保持了计算拓扑的均匀性。
从应用程序的角度来看,每个核心到其他核心、缓存、内存和网络等资源的实际访问距离均相同,并分配有均匀的高吞吐量带宽。大多数延迟敏感型操作均在本地执行,避免了传统 CPU 上常见的非必要跨芯片通信。
在 AI 工厂中,智能体任务、分析操作、KV 与 Blob 缓存、编排流程以及控制平面的运行时路径具有内在的不可预测性。在传统实现中,为最大化应用性能,必须提前考虑处理器的拓扑结构及其上运行的相邻任务的使用模式。该设计无需此类调优即可实现最优性能。
第二代 SCF 将所有 88 个 Olympus 核心连接至共享的 L3 缓存与内存子系统,提供一致的延迟和 3.4 TB/s 的对分带宽,使 Vera CPU 在负载下能够维持超过 90% 的峰值内存带宽。每个核心配备高达 14 GB/s 的内存带宽,约为传统数据中心 CPU 单核速率的 3 倍——从而确保当所有核心均处于活跃状态时,ETL、实时分析及访存密集型工作负载仍能保持稳定的吞吐量。
为 SCF 提供内存支持的是 Vera 的第二代 LPDDR5X 内存子系统,总带宽高达 1.2 TB/s,内存功耗不到传统 DDR 配置的一半,容量最高达 1.5 TB,较上一代提升 3 倍。小型轮廓压缩附加内存模块(SOCAMM)首次将低功耗内存引入数据中心,以可拆卸、可升级的模块取代了焊接内存,将 LPDDR 的高能效与服务器级的可维护性相结合。
AI工厂的整体性能
所有这些架构特性使 Vera CPU 在满插槽负载下,相较于竞品 x86 平台,在编译器、脚本工具、运行时引擎、压缩及智能体工具调用等方面,可提供高达 1.5 倍的智能体沙盒性能(图 3)。

这一优势在三个维度上不断叠加。在 RL 后训练阶段,速度快 1.5 倍的沙盒能在更紧凑的时间窗口内返回评估结果,使模型能够捕获最优梯度 token,从而加速训练周期。
在智能体推理中,它缩短了用户的等待时间,提升了加速器利用率,并缓解了 KV 缓存卸载的压力。
针对前沿训练问题,单核性能提升 50% 意味着在达到时间限制前能完成更多串行测试,从而拓展了模型可学习求解的难题范围。
机架级智能体环境
每个 AI Factory 都需要数百万个 CPU 核心,以支持强化学习(RL)与工具使用的智能体循环。为释放 AI 基础设施的潜力,部署必须迅速进行。对许多 AI 工厂运营方而言,Vera CPU 将成为其集群中的首批设备,进驻专为高机架功率与液冷设计的数据中心。
全新的 NVIDIA Vera CPU 机架在与当前部署的 NVL72 产品相同的规划约束、机架基础设施、冷却及供电条件下,实现了极高的密度与性能。
凭借超过 2.25 万个沙盒的容量,Vera CPU Rack 提供的容量是基于 x86 服务器机架的 4 倍以上,每瓦性能达到其 2 倍(图 4)。AI Factories 在机架级别部署和管理容量,大幅缩短了建设周期,加快了新容量的上市速度,同时简化了场地规划。
每个 Vera CPU 均连接至 NVIDIA BlueField-4 SmartNIC,该网卡内置基于 Grace 的专用管理核心,可卸载安全与管理等网络任务,确保系统内最高性能的算力完全可供智能体任务使用。

Vera 平台与配置
除了 Vera CPU 机柜,NVIDIA 还为现代 AI 工厂的多样化工作负载打造了完整的基于 Vera 的平台系列。通过提供密度、散热能力、配置和外形尺寸等多种选择,Vera 的设计与系统合作伙伴能够实现快速部署与容量扩容,灵活适应任何数据中心设施的空间限制。

平台供应情况
Vera系统将于2026年下半年由包括Cisco、Dell、HPE、Lenovo和Supermicro在内的主要OEM厂商提供。如需了解更多详情,请访问Vera CPU网页。
了解更多关于 Vera CPU 和 Vera Rubin 的信息。
NVIDIA Vera 与 AMD EPYC Turin 和 Intel Xeon 6 Granite Rapids 的性能对比,涵盖代码编译、解释器、脚本编写、运行时引擎、ETL、数据分析及图计算等多种工作负载。
标签















