元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

在AI时代，功耗是终极约束条件，每家AI工厂都在硬性限制下运行。这使得每瓦性能——即将电能转化为可产生收益的智能的速率——成为现代AI基础设施的核心衡量标准。

AI数据中心如今作为直接与能源生态系统挂钩的Token工厂运行，土地、电力和建筑外壳的获取决定了部署规模，而能效则决定了产出。在固定功耗限制下提升收益，完全取决于在整个AI基础设施及“五层AI蛋糕”生态系统中实现每瓦智能的最大化。

本文详细探讨了NVIDIA架构、系统以及AI工厂软件如何在技术栈的每一层实现每瓦性能的最大化，以及这些能效提升如何转化为更高的Token吞吐量和每兆瓦收益。

跨NVIDIA GPU架构的每瓦性能复合提升

NVIDIA架构与平台经过专门设计，旨在使每一代产品的每瓦智能产出量不断提升。历经六代架构演进，NVIDIA已将每兆瓦推理吞吐量提升了1,000,000倍（图1）。

为便于理解，如果汽车的平均燃油效率在相近时期内能像芯片一样飞速提升，那么一加仑汽油便足以支撑往返月球的旅程。

Performance chart with tokens per second per megawatt on the y axis and years on the axis showing Kepler at the bottom left beginning with less than 1 tok/sec/MW in 2012 going to the top right with Rubin at 700 K tok/sec/MW in 2026. — 图1. 历经六代NVIDIA架构演进，推理能效提升达1,000,000倍

NVIDIA Hopper架构引入了多项创新设计，使其能效较上一代实现显著提升。实现这一突破的核心在于Hopper Transformer Engine，它将第四代Tensor Core技术、FP8加速与配套软件深度融合，从而大幅提升了每瓦性能。

NVIDIA Blackwell 在此基础之上进一步优化了高带宽内存 (HBM)、NVIDIA NVLink 交换机与互联架构（面向 NVL72 机柜级设计与 NVIDIA HGX 架构），以及支持 NVFP4 的 Tensor Core，从而提升了每瓦吞吐量。SemiAnalysis InferenceX 的最新数据显示，在运行 DeepSeek-R1 时，NVIDIA 的软件优化与 NVIDIA Blackwell Ultra GB300 NVL72 系统相比 Hopper 架构，可实现高达 50 倍的每兆瓦吞吐量提升，并使单 token 成本降低 35 倍。

NVIDIA Vera Rubin 平台进一步提升了能效。Rubin GPU、Vera CPU、NVLink 6 以及整机柜散热系统被协同设计为统一的 AI 工厂平台。值得注意的是，NVIDIA Vera CPU 的能效是传统 CPU 的 2 倍，性能提升 50%。这种端到端的方法使 AI 工厂在运行 Kimi K2 (32K/8K) 时，相比 Blackwell 架构可实现高达 10 倍的每兆瓦推理吞吐量提升，以及约 10 倍的单 token 成本降低。搭配 NVIDIA Groq 3 LPX，Vera Rubin 面向万亿参数、长上下文工作负载，可实现高达 35 倍的每兆瓦吞吐量提升，并带来 10 倍的收入增长，从而开创了一个全新的超低延迟、高吞吐量推理高端层级。

这些能效提升在 AI 工作负载中显而易见，同时也体现在更广泛的计算性能指标上。高性能计算 (HPC) 与超算社区采用 Green500 基准测试来衡量高精度 (FP64) 能效，而 NVIDIA 超算系统在榜单上名列前茅，前十名中有九套系统均由 NVIDIA 技术加速。

以极致协同设计构建高效能

要在架构迭代中实现如此巨大的能效提升，必须将能效设计融入技术栈的每一层。

NVIDIA 将其视为一项极致协同设计课题——优化范围涵盖芯片设计与制造，延伸至液冷等系统级创新，直至 AI 工厂的编排调度。每一层级都为下一层带来增益：高效设计减少能量损耗，散热系统使更多电力用于计算，而软件则确保每一瓦电力都能转化为有效算力。

在源头构建能效工程

能效优化在芯片抵达 AI 工厂之前便已开始。NVIDIA 正在对制造流程本身进行优化，以更快地交付能效更高的芯片。

例如，用于加速计算光刻的 NVIDIA cuLitho 库在 GPU 上重新实现了计算光刻的核心原语。它将掩模合成的速度最高提升了 70 倍，并使得数百台 NVIDIA DGX 级系统能够替代数万台 CPU 服务器。在实际应用中，这意味着光掩模的制作周期从两周缩短至一夜完成，功耗降至约九分之一，物理占地面积缩小至八分之一，同时支持逆向光刻和曲面掩模等先进技术。

Performance improvements for advanced Mask data preparation techniques, Curvilinear OPC (58x) and Manhattan OPC (70x), shown with two green bars on a black background. — 图2. 用于加速计算光刻的 NVIDIA cuLitho 将掩模合成性能最高提升 58 倍（针对曲面光学邻近校正 OPC）和最高 70 倍（针对曼哈顿 OPC）

在材料层面，NVIDIA cuEST 是一个 CUDA-X 库，旨在加速 NVIDIA GPU 上的第一性原理量子化学应用。它将基于量子化学的电子结构计算转变为生产级工具。通过在密度泛函理论及相关工作负载上实现高达 55 倍的加速，cuEST 使器件和工艺工程师能够在工业规模上探索新型、更低漏电的材料堆栈，而非仅针对少数精选候选材料进行验证。其结果是形成了一条工艺流水线，使材料和器件针对更低漏电和更优开关特性进行优化，直接转化为晶体管层面更高的每瓦性能。

这种设计阶段的加速在 GPU 加速的 Electronic Design Automation (EDA) 流程中进一步放大。NVIDIA 正与其他 EDA 领军企业合作，将电子设计与自动化工作负载迁移至 GPU，使关键模块的迭代速度最高提升 15 倍。更快的迭代为优化设计与验证流程、IR 压降、时钟网络及热热点提供了更多机会。相应地，这能够生成更优的芯片布局与电源网格，减少以热能形式耗散的能量，并将更多输入功率输送至有效计算单元。换言之，GPU 加速的 EDA 和制造工具将每瓦性能转化为一个明确的优化目标函数。

EDA workload performance improvements shown with green bars on black background across FEM (20x), Litho (20x), SPICE (30x), DEM (40x), Inspection (40x), CFD (50x), and TCAD (100x). — 图3. 由多种 CUDA-X 库实现 GPU 加速的 EDA 工作负载

这些进步共同使设计与制造流程更加高效，大幅减少了交付下一代芯片所需的时间、能耗与基础设施成本。

散热作为每瓦性能的倍增器

提升每瓦性能并不止步于芯片本身。系统的散热方案同样决定了实际可用于计算的功率上限。

NVIDIA Blackwell 系统降低了冷却开销，运行 PUE 约为 1.25，其中约 20% 的容量采用风冷。相较于前代产品，该系统将更多能源用于计算，与传统风冷架构相比，能效最高提升 25 倍，水效提升 300 倍以上。

NVIDIA Vera Rubin 通过全面转向 100% 液冷并优化芯片至水的散热路径，进一步提升了能效，使 AI 工厂能够在 1.1 PUE 下运行，而无需按比例增加冷却能耗或用水量。

维持 45°C 的进水温度可保障硅片温度与可靠性，同时改进的传热效率实现了比 Blackwell 更高的每瓦性能。在许多气候条件下，45°C 的进水主要可通过环境空气冷却，从而大幅缩短压缩机运行时间，减少冷水机组负荷，使更多电力预算从冷却转向生成 Token。相比之下，较低温度的冷却需求更依赖基于压缩机的系统，这会将设施有限的电网配额中更大比例转移至冷却环节，而非计算环节。

将能效转化为 Token

随着每瓦 Token 产出的提升，更多可计费的 AI 工作负载能够适配固定功率预算，从而降低单 Token 成本并扩大利润空间。实现这些收益需要弥合电网供电与可用算力之间的差距。在吉瓦级规模下，高达 40% 的电力在抵达计算单元前就会损耗。电力损耗源于冷却效率低下，而传统的超额配置则浪费了容量。此外，过于接近热或电气极限运行会增加故障风险。

NVIDIA DSX 弥合了这一差距。Vera Rubin DSX AI Factory 参考设计与 Omniverse 数字孪生蓝图将 AI 工厂视为一个动态系统，持续监控并调整电力、冷却和工作负载行为。系统运行于 Max-Q 状态（即每瓦性能最高的工作点），而非低效的峰值状态。Domain Power Service、Workload Power Profiles 和 Mission Control 协同调度机柜与集群，实现节能运行。对于 500 MW 的 AI 工厂，DSX Max-Q 可帮助生态合作伙伴在相同功率预算内容纳多达 30% 的额外 GPU，并实现更高的每瓦吞吐量；同时，DSX Flex 可根据实时电网状况对齐需求，从而释放未利用容量。

行业领军企业表明，采用 Agentic 液冷与 Max-Q 运行的 AI 工厂能够实现更高的每瓦 Token 产出。每一瓦未消耗于冷却或闲置容量上的电力，都将转化为生成 Token 的电力——并最终转化为收入。

视频1. 了解NVIDIA DSX如何帮助开发者优化物理、电气、散热及网络系统中的Token吞吐量、系统韧性与能源使用。

从Token到每兆瓦营收

推理业务驱动营收。Token是智能的基本单位，而每兆瓦吞吐量决定了AI工厂的营收潜力。在电力受限且需求激增的背景下，运营商必须像监控营收和利润率一样，密切追踪吞吐量与Token生成速率。

随着模型不断演进，上下文窗口日益扩大，输出长度不断增加。正如NVIDIA首席执行官Jensen Huang在GTC 2026 Keynote中所述，AI服务将形成完整的梯队谱系：免费层级用于吸引用户，中端模型在规模与速度间取得平衡，而具备超大上下文窗口与极高吞吐量的旗舰层级则拥有更高的百万Token定价。更智能的模型享有更高定价，使得每一次向产品谱系高端的跃升都成为直接的营收杠杆。

Hopper、Blackwell和Vera Rubin等NVIDIA平台持续推高每瓦Token产出曲线，尤其是在高价值层级。Blackwell在商业化变现集中的区域将吞吐量提升了35倍。Vera Rubin则使旗舰层级的性能再提升一个数量级。通过极致的协同设计、NVL72规模系统以及超低延迟互连技术，得以在相同的功耗限制内，以更高密度支撑更高价值的服务层级。

对运营商而言，核心指标非常简单：每兆瓦营收。一座1吉瓦的AI工厂需将电力分配给免费、中端、高端及超高端层级。吞吐量与定价的加权乘积即构成营收引擎。升级至下一代硬件，可在同等功耗下实现5倍甚至更高的营收增长。引入专用系统（例如面向工程负载的超低延迟切片）将带来额外的阶跃式突破。推理性能与效率的每一项提升，都会成倍放大经济效益。

Performance chart with ‘annual revenue per gigawatt’ on y axis, Free, Medium, High, Premium and Ultra service tiers three green bars showing how much can be generated using Blackwell, Rubin, and Vera Rubin + LPX with the final claim of 10x — 图4. NVIDIA Vera Rubin与NVIDIA Groq 3 LPX将每吉瓦营收提升10倍

在当前电力受限且AI需求激增的环境下，依托NVIDIA AI基础设施极致协同设计所实现的效率与吞吐量提升，唯有实现规模化落地方能发挥价值。NVIDIA Omniverse DSX Blueprint确保AI工厂持续处于峰值效率运行状态，将每一瓦可用电力转化为有效算力。

了解更多

电力是现代人工智能的终极制约因素：在电网容量固定的前提下，最大化每瓦性能——即能量转化为创收Token的速率——已成为AI基础设施的决定性指标。NVIDIA架构与平台专为在每一代产品中提升每瓦产出的智能量而设计。历经六代架构演进，NVIDIA已将每兆瓦推理吞吐量提升了100万倍。

欲了解更多信息，请探索行业领导者如何在功耗限制下扩展智能规模、提升每瓦智能产出，以及在CERAWeek 2026上推进高能效芯片设计的进展。

通过最大化每瓦性能扩展 Token 工厂收入和 AI 效率