中文内容
在AI时代,功耗是终极约束条件,每家AI工厂都在硬性限制下运行。这使得每瓦性能——即将电能转化为可产生收益的智能的速率——成为现代AI基础设施的核心衡量标准。
AI数据中心如今作为直接与能源生态系统挂钩的Token工厂运行,土地、电力和建筑外壳的获取决定了部署规模,而能效则决定了产出。在固定功耗限制下提升收益,完全取决于在整个AI基础设施及“五层AI蛋糕”生态系统中实现每瓦智能的最大化。
本文详细探讨了NVIDIA架构、系统以及AI工厂软件如何在技术栈的每一层实现每瓦性能的最大化,以及这些能效提升如何转化为更高的Token吞吐量和每兆瓦收益。
跨NVIDIA GPU架构的每瓦性能复合提升
NVIDIA架构与平台经过专门设计,旨在使每一代产品的每瓦智能产出量不断提升。历经六代架构演进,NVIDIA已将每兆瓦推理吞吐量提升了1,000,000倍(图1)。
为便于理解,如果汽车的平均燃油效率在相近时期内能像芯片一样飞速提升,那么一加仑汽油便足以支撑往返月球的旅程。

NVIDIA Hopper架构引入了多项创新设计,使其能效较上一代实现显著提升。实现这一突破的核心在于Hopper Transformer Engine,它将第四代Tensor Core技术、FP8加速与配套软件深度融合,从而大幅提升了每瓦性能。
NVIDIA Blackwell 在此基础之上进一步优化了高带宽内存 (HBM)、NVIDIA NVLink 交换机与互联架构(面向 NVL72 机柜级设计与 NVIDIA HGX 架构),以及支持 NVFP4 的 Tensor Core,从而提升了每瓦吞吐量。SemiAnalysis InferenceX 的最新数据显示,在运行 DeepSeek-R1 时,NVIDIA 的软件优化与 NVIDIA Blackwell Ultra GB300 NVL72 系统相比 Hopper 架构,可实现高达 50 倍的每兆瓦吞吐量提升,并使单 token 成本降低 35 倍。
NVIDIA Vera Rubin 平台进一步提升了能效。Rubin GPU、Vera CPU、NVLink 6 以及整机柜散热系统被协同设计为统一的 AI 工厂平台。值得注意的是,NVIDIA Vera CPU 的能效是传统 CPU 的 2 倍,性能提升 50%。这种端到端的方法使 AI 工厂在运行 Kimi K2 (32K/8K) 时,相比 Blackwell 架构可实现高达 10 倍的每兆瓦推理吞吐量提升,以及约 10 倍的单 token 成本降低。搭配 NVIDIA Groq 3 LPX,Vera Rubin 面向万亿参数、长上下文工作负载,可实现高达 35 倍的每兆瓦吞吐量提升,并带来 10 倍的收入增长,从而开创了一个全新的超低延迟、高吞吐量推理高端层级。
这些能效提升在 AI 工作负载中显而易见,同时也体现在更广泛的计算性能指标上。高性能计算 (HPC) 与超算社区采用 Green500 基准测试来衡量高精度 (FP64) 能效,而 NVIDIA 超算系统在榜单上名列前茅,前十名中有九套系统均由 NVIDIA 技术加速。
以极致协同设计构建高效能
要在架构迭代中实现如此巨大的能效提升,必须将能效设计融入技术栈的每一层。
NVIDIA 将其视为一项极致协同设计课题——优化范围涵盖芯片设计与制造,延伸至液冷等系统级创新,直至 AI 工厂的编排调度。每一层级都为下一层带来增益:高效设计减少能量损耗,散热系统使更多电力用于计算,而软件则确保每一瓦电力都能转化为有效算力。
在源头构建能效工程
能效优化在芯片抵达 AI 工厂之前便已开始。NVIDIA 正在对制造流程本身进行优化,以更快地交付能效更高的芯片。
例如,用于加速计算光刻的 NVIDIA cuLitho 库在 GPU 上重新实现了计算光刻的核心原语。它将掩模合成的速度最高提升了 70 倍,并使得数百台 NVIDIA DGX 级系统能够替代数万台 CPU 服务器。在实际应用中,这意味着光掩模的制作周期从两周缩短至一夜完成,功耗降至约九分之一,物理占地面积缩小至八分之一,同时支持逆向光刻和曲面掩模等先进技术。

在材料层面,NVIDIA cuEST 是一个 CUDA-X 库,旨在加速 NVIDIA GPU 上的第一性原理量子化学应用。它将基于量子化学的电子结构计算转变为生产级工具。通过在密度泛函理论及相关工作负载上实现高达 55 倍的加速,cuEST 使器件和工艺工程师能够在工业规模上探索新型、更低漏电的材料堆栈,而非仅针对少数精选候选材料进行验证。其结果是形成了一条工艺流水线,使材料和器件针对更低漏电和更优开关特性进行优化,直接转化为晶体管层面更高的每瓦性能。
这种设计阶段的加速在 GPU 加速的 Electronic Design Automation (EDA) 流程中进一步放大。NVIDIA 正与其他 EDA 领军企业合作,将电子设计与自动化工作负载迁移至 GPU,使关键模块的迭代速度最高提升 15 倍。更快的迭代为优化设计与验证流程、IR 压降、时钟网络及热热点提供了更多机会。相应地,这能够生成更优的芯片布局与电源网格,减少以热能形式耗散的能量,并将更多输入功率输送至有效计算单元。换言之,GPU 加速的 EDA 和制造工具将每瓦性能转化为一个明确的优化目标函数。

这些进步共同使设计与制造流程更加高效,大幅减少了交付下一代芯片所需的时间、能耗与基础设施成本。
散热作为每瓦性能的倍增器
提升每瓦性能并不止步于芯片本身。系统的散热方案同样决定了实际可用于计算的功率上限。
NVIDIA Blackwell 系统降低了冷却开销,运行 PUE 约为 1.25,其中约 20% 的容量采用风冷。相较于前代产品,该系统将更多能源用于计算,与传统风冷架构相比,能效最高提升 25 倍,水效提升 300 倍以上。
NVIDIA Vera Rubin 通过全面转向 100% 液冷并优化芯片至水的散热路径,进一步提升了能效,使 AI 工厂能够在 1.1 PUE 下运行,而无需按比例增加冷却能耗或用水量。
维持 45°C 的进水温度可保障硅片温度与可靠性,同时改进的传热效率实现了比 Blackwell 更高的每瓦性能。在许多气候条件下,45°C 的进水主要可通过环境空气冷却,从而大幅缩短压缩机运行时间,减少冷水机组负荷,使更多电力预算从冷却转向生成 Token。相比之下,较低温度的冷却需求更依赖基于压缩机的系统,这会将设施有限的电网配额中更大比例转移至冷却环节,而非计算环节。
将能效转化为 Token
随着每瓦 Token 产出的提升,更多可计费的 AI 工作负载能够适配固定功率预算,从而降低单 Token 成本并扩大利润空间。实现这些收益需要弥合电网供电与可用算力之间的差距。在吉瓦级规模下,高达 40% 的电力在抵达计算单元前就会损耗。电力损耗源于冷却效率低下,而传统的超额配置则浪费了容量。此外,过于接近热或电气极限运行会增加故障风险。
NVIDIA DSX 弥合了这一差距。Vera Rubin DSX AI Factory 参考设计与 Omniverse 数字孪生蓝图将 AI 工厂视为一个动态系统,持续监控并调整电力、冷却和工作负载行为。系统运行于 Max-Q 状态(即每瓦性能最高的工作点),而非低效的峰值状态。Domain Power Service、Workload Power Profiles 和 Mission Control 协同调度机柜与集群,实现节能运行。对于 500 MW 的 AI 工厂,DSX Max-Q 可帮助生态合作伙伴在相同功率预算内容纳多达 30% 的额外 GPU,并实现更高的每瓦吞吐量;同时,DSX Flex 可根据实时电网状况对齐需求,从而释放未利用容量。
行业领军企业表明,采用 Agentic 液冷与 Max-Q 运行的 AI 工厂能够实现更高的每瓦 Token 产出。每一瓦未消耗于冷却或闲置容量上的电力,都将转化为生成 Token 的电力——并最终转化为收入。
从Token到每兆瓦营收
推理业务驱动营收。Token是智能的基本单位,而每兆瓦吞吐量决定了AI工厂的营收潜力。在电力受限且需求激增的背景下,运营商必须像监控营收和利润率一样,密切追踪吞吐量与Token生成速率。
随着模型不断演进,上下文窗口日益扩大,输出长度不断增加。正如NVIDIA首席执行官Jensen Huang在GTC 2026 Keynote中所述,AI服务将形成完整的梯队谱系:免费层级用于吸引用户,中端模型在规模与速度间取得平衡,而具备超大上下文窗口与极高吞吐量的旗舰层级则拥有更高的百万Token定价。更智能的模型享有更高定价,使得每一次向产品谱系高端的跃升都成为直接的营收杠杆。
Hopper、Blackwell和Vera Rubin等NVIDIA平台持续推高每瓦Token产出曲线,尤其是在高价值层级。Blackwell在商业化变现集中的区域将吞吐量提升了35倍。Vera Rubin则使旗舰层级的性能再提升一个数量级。通过极致的协同设计、NVL72规模系统以及超低延迟互连技术,得以在相同的功耗限制内,以更高密度支撑更高价值的服务层级。
对运营商而言,核心指标非常简单:每兆瓦营收。一座1吉瓦的AI工厂需将电力分配给免费、中端、高端及超高端层级。吞吐量与定价的加权乘积即构成营收引擎。升级至下一代硬件,可在同等功耗下实现5倍甚至更高的营收增长。引入专用系统(例如面向工程负载的超低延迟切片)将带来额外的阶跃式突破。推理性能与效率的每一项提升,都会成倍放大经济效益。

在当前电力受限且AI需求激增的环境下,依托NVIDIA AI基础设施极致协同设计所实现的效率与吞吐量提升,唯有实现规模化落地方能发挥价值。NVIDIA Omniverse DSX Blueprint确保AI工厂持续处于峰值效率运行状态,将每一瓦可用电力转化为有效算力。
了解更多
电力是现代人工智能的终极制约因素:在电网容量固定的前提下,最大化每瓦性能——即能量转化为创收Token的速率——已成为AI基础设施的决定性指标。NVIDIA架构与平台专为在每一代产品中提升每瓦产出的智能量而设计。历经六代架构演进,NVIDIA已将每兆瓦推理吞吐量提升了100万倍。
欲了解更多信息,请探索行业领导者如何在功耗限制下扩展智能规模、提升每瓦智能产出,以及在CERAWeek 2026上推进高能效芯片设计的进展。
标签


















