元鉴 Yuanjian

中文内容

已翻译official company source英文原文2026-05-26

协同设计的硬件、软件和模型，是实现最高 AI 工厂吞吐量和最低 token 成本的关键。衡量这一点远不止看芯片峰值规格。严格的 AI 推理性能基准测试对于理解真实世界的 token 输出至关重要，而 token 输出会推动 AI 工厂收入。

MLPerf Inference v6.0 是一系列行业基准测试中的最新版本，用于衡量各种模型架构和用例下的性能。在这一最新轮测试中，由 NVIDIA Blackwell Ultra GPU 驱动的系统在最广泛的模型和场景中实现了最高吞吐量。这使得 NVIDIA 自 2018 年以来在 MLPerf 训练和推理中的累计胜出次数达到 291 次，是所有其他提交者总和的 9 倍。

在本轮测试中，NVIDIA 合作伙伴生态系统广泛参与，共有 14 家合作伙伴参与提交——这是所有平台中提交合作伙伴数量最多的一次。ASUS、Cisco、CoreWeave、Dell Technologies、GigaComputing、Google Cloud、HPE、Lenovo、Nebius、Netweb Technology、Quanta Cloud Technology (QCT)、Red Hat、Supermicro 和 Lambda 在 NVIDIA 平台上实现了出色性能。

Line chart showing NVIDIA GPU MLPerf training and inference wins growing from 2018 to 2026, accumulating 9x more wins than all others combined, alongside logos of NVIDIA partners delivering outstanding performance including ASUS, Cisco, Cor — 图 1. NVIDIA 在 MLPerf 训练和推理中的累计胜出次数高出 9 倍

本文将更深入地探讨最新的基准测试更新、NVIDIA 平台实现的行业领先性能，以及使其成为可能的全栈工程能力。

新的基准测试，新的性能纪录

MLPerf Inference 基准测试套件会定期更新，以确保其反映对社区重要的模型、模态、用例和部署场景。在本轮中，只有 NVIDIA 平台提交了所有新增模型和场景的结果，并在所有这些项目中都实现了最高性能。

本轮 MLPerf Inference 新增了多项测试，包括：

DeepSeek-R1 Interactive：继 MLPerf Inference v5.1 中加入基于稀疏混合专家（MoE）架构的 DeepSeek-R1 推理 LLM 之后，MLCommons 新增了一个 Interactive 场景；与 server 场景相比，该场景的最低 token 速率快 5 倍，首个 token 生成时间缩短 1.3 倍，代表更高交互性的部署。
Qwen3-VL-235B-A22B：总参数量为 235B 的视觉-语言模型。这是 MLPerf Inference 套件中的首个多模态模型。测试了两个场景：Offline 和 Server。
GPT-OSS-120B：由 OpenAI 开发的 120B 参数 MoE 推理 LLM。该基准测试包括三个场景：Offline、Server 和 Interactive。
WAN-2.2-T2V-A14B：4B 参数的文本到视频生成式 AI 模型。测试了两个场景：single-stream，用于衡量处理单个视频生成请求的延迟；offline，用于衡量批处理场景中每秒处理的样本数。
DLRMv3——一种生成式推荐基准，取代了 DLRM-DCNv2 测试。它采用基于 Transformer 的架构，与此前的基准相比增加了模型规模和计算强度。它测试离线和服务器场景。

BenchmarkDeepSeek-R1GPT-OSS-120BQwen3-VLWan 2.2DLRMv3Offline2,494,310 tokens/sec*1,046,150 tokens/sec79 samples/sec0.059 samples/sec104,637 samples/secServer1,555,110 tokens/sec*1,096,770 tokens/sec68 queries/sec21 secs**(Single Stream)99,997 queries/secInteractive250,634 tokens/sec677,199 tokens/sec*********

表 1. NVIDIA 平台在 MLPerf Inference v6.0 中新增工作负载和场景上的吞吐量

* 不是 MLPerf Inference v6.0 中的新场景 ** Wan 2.2 包含单流场景，该场景衡量端到端请求延迟，而不是服务器场景。数值越低越好。*** 未在 MLPerf Inference v6.0 中测试

MLPerf Inference v6.0，封闭组。结果于 2026 年 4 月 1 日从 www.mlcommons.org 获取。NVIDIA 平台结果来自以下条目：6.0-0039、6.0-0073、6.0-0075、6.0-0076、6.0-0078、6.0-0081、6.0-0094。MLPerf 名称和徽标是 MLCommons Association 在美国和其他国家/地区的注册和未注册商标。保留所有权利。严禁未经授权使用。更多信息请参见 www.mlcommons.org。

Bar chart showing 2.7x DeepSeek-R1 inference improvement on NVIDIA GB300 NVL72 between August 2025 and February 2026, alongside a record 2.5 million tokens per second achieved on 288 NVIDIA Blackwell Ultra GPUs. — 图 2. NVIDIA 在 DeepSeek-R1 上实现 2.7 倍性能提升和 250 万 token/s

NVIDIA TensorRT-LLM 软件更新在相同的 Blackwell Ultra GPU 上释放高达 2.7 倍的性能提升

NVIDIA 持续优化其软件栈的性能，以提高现有平台交付的 token 吞吐量。这降低了 token 生成成本，并使 AI 工厂运营商能够在既定基础设施占用规模下服务更多用户，从而创造更多收入。

额外的性能也为运行未来 AI 模型以及在高要求场景中服务现有模型提供了余量，例如更高的 token 速率和更长的上下文。这种持续改进使得多年前推出的 NVIDIA GPU 仍能在云端以高利用率保持生产力。

本轮测试中，去年推出的 NVIDIA GB300 NVL72 在 DeepSeek-R1 基准测试的服务器场景中，与其六个月前首次提交的成绩相比，实现了最高 2.7 倍的 token 吞吐量提升1。这意味着在相同的基于 GB300 NVL72 的基础设施和功耗占用下，可生成的 token 数量增加 2.7 倍，使每个 token 的制造成本降低超过 60%。这一由 NVIDIA 合作伙伴 Nebius 实现的加速，展示了 NVIDIA 平台的一项核心优势：一个开放而广泛的生态系统，客户和合作伙伴能够在我们的软件栈之上进行独特的优化和创新。

1MLPerf Inference v5.1 和 v6.0，Closed Division。结果于 2026 年 4 月 1 日从 www.mlcommons.org 获取。NVIDIA 平台结果来自以下条目：5.1-0072、6.0-0081。MLPerf 名称和徽标是 MLCommons Association 在美国及其他国家/地区的注册和未注册商标。保留所有权利。严禁未经授权使用。更多信息请参见 www.mlcommons.org。

推动服务器和离线场景中 DeepSeek R1 性能提升的是多项软件增强，包括：

更快的内核——这包括更高性能内核的组合，以及由于内核融合而减少内核使用数量。
优化的注意力数据并行——更好地平衡不同 rank 之间的上下文请求，从而显著提升端到端性能。

开源 NVIDIA TensorRT-LLM 推理服务软件和 NVIDIA Dynamo 开源分布式推理服务框架的最新功能被用于支持新添加且更具挑战性的 DeepSeek-R1 Interactive 场景。这包括：

解耦式服务：Dynamo 中的这一能力分别分离并单独优化每个推理阶段（prefill 和 decode）的配置，从而实现最佳整体吞吐量。
宽专家并行（Wide Expert Parallel，WideEP）：对于更高交互性的场景，MoE 模型的执行时间受限于专家权重加载时间。通过在多个 NVL72 节点上的多块 GPU 之间拆分或分片专家，可以减少这一瓶颈，从而提升端到端性能。
多令牌预测（MTP）：在较高交互性级别下，批大小更小，性能主要取决于权重加载到内存的速度，导致计算性能未被充分利用。通过利用原本未被使用的计算能力，并行预测和验证额外的令牌（在此实现中最多三个），提高了高交互性场景下的吞吐量。
KV 感知路由：Dynamo 的这一能力通过评估不同工作节点上的计算成本来路由推理请求。

当该基准测试去年首次推出时，NVIDIA 是首个也是唯一一个在 MLPerf Inference 上提交 DeepSeek-R1 结果的平台。在本轮中，NVIDIA 不仅提升了 DeepSeek-R1 在既有场景中的性能，而且再次成为唯一一个在新增加的交互式场景中提交结果的平台。

即使在 Llama 3.1 405B 上——这是一款近两年前推出的非常大型、稠密型 LLM——GB300 NVL72 在服务器场景中的性能也提升了 1.5 倍。

BenchmarkGB300 NVL72 v5.1GB300 NVL72v6.0SpeedupDeepSeek-R1(Server)2,907 tokens/sec/gpu8,064 tokens/sec/gpu2.77xDeepSeek-R1(Offline)5,842 tokens/sec/gpu9,821 tokens/sec/gpu1.68xLlama 3.1 405B(Server)170 tokens/sec/gpu259 tokens/sec/gpu1.52xLlama 3.1 405B(Offline)224 tokens/sec/gpu271 tokens/sec/gpu1.21x

表 2. 与 v5.1 相比，v6.0 中 DeepSeek-R1 和 Llama 3.1 405B 在服务器和离线场景下按每 GPU 归一化的性能提升

MLPerf Inference v5.1 和 v6.0，Closed Division。结果于 2026 年 4 月 1 日从 www.mlcommons.org 获取。NVIDIA 平台结果来自以下条目：5.1-0072、6.0-0017、6.0-0078、6.0-0082。单芯片性能通过将总吞吐量除以报告的芯片数量得出。单芯片性能并非 MLPerf Inference v5.1 或 v6.0 的主要指标。MLPerf 名称和标志是 MLCommons Association 在美国及其他国家的注册和未注册商标。保留所有权利。严禁未经授权使用。更多信息请参见 www.mlcommons.org。

此外，NVIDIA 在新加入的多模态、视频生成和推荐基准测试中的提交由针对 NVIDIA 平台优化的开源软件框架提供支持。Qwen3-VL 视觉语言提交使用了 vLLM 开源框架，展示了社区如何快速构建先进的多模态优化，以在 NVIDIA Blackwell Ultra 等最新 GPU 上加速图像密集型推理工作负载。WAN-2.2 文本到视频提交使用了 TensorRT-LLM VisualGen，可在 NVIDIA GPU 上加速基于扩散的视频生成流水线。

对于 DLRMv3，本次提交基于两个开源项目构建：用于高性能基于 Transformer 的推荐推理的 NVIDIA recsys-example，以及用于 GPU 加速嵌入表查找的 NV Embedding Cache。二者对于在这一要求更高的生成式推荐基准测试中实现创纪录吞吐量至关重要。

通过广泛且持续的工程优化，NVIDIA 正在不断提升现有硬件在现有模型上的性能，这些结果便是明证。与此同时，NVIDIA 与模型构建者和开源推理框架密切合作，以确保最新模型在发布当天即可在 NVIDIA 平台上运行。

采用 NVIDIA Quantum-X800 InfiniBand 平台进行横向扩展推理，可实现每秒数百万个 token

NVIDIA 还通过提交使用四套 GB300 NVL72 系统的结果，在 DeepSeek-R1 模型的离线和服务器场景中创下了新的规模化吞吐量纪录；这些系统通过 NVIDIA Quantum-X800 InfiniBand 横向扩展网络互连。

DeepSeek-R1 | 4x GB300 NVL72Tokens/SecondOffline2,494,310Server1,555,110

表 3. DeepSeek-R1 在四套 GB300 NVL72 系统上的吞吐量，这些系统通过 NVLink 纵向扩展，并通过 NVIDIA Quantum-X800 InfiniBand 横向扩展

凭借 288 个 Blackwell Ultra GPU——这是 MLPerf Inference 中任何基准测试提交过的最大规模——这些提交创下了新的系统级吞吐量纪录，使每秒处理数百万个 token 成为可能。

展望 MLPerf Endpoints

实现推理吞吐量需要在多芯片、系统架构、数据中心设计和软件之间进行极致的协同设计。最新的 MLPerf Inference v6.0 结果显示，在行业标准基准测试中，NVIDIA 在最广泛的工作负载范围内实现了无与伦比的推理吞吐量，涵盖从大规模 LLM 到先进的视觉语言模型、生成式推荐系统等。

随着模型规模扩大和上下文长度增加，AI 推理工作负载也在持续快速演进。随着智能体 AI 变得更加普遍，需要超快 token 生成速率的高端用例正在出现。

作为 MLCommons 联盟的一部分，NVIDIA 一直在推动 MLPerf Endpoints 基准测试的定义。MLPerf Endpoints 将为社区提供一幅严谨、可审计的图景，展示已部署服务在真实 API 流量下的表现——捕捉仅靠芯片级基准测试无法揭示的关键性能指标——同时提供定义 MLPerf 基准测试的严谨性和结果完整性。

如需了解 NVIDIA 平台在训练、推理和高性能计算方面的最新性能，请参阅我们的深度学习产品性能页面。

致谢

NVIDIA MLPerf Inference v6.0 结果体现了公司内部众多才华横溢的工程师的工作。我们谨向以下个人的贡献表示感谢（按姓氏排序）：

Vedaanta Agarwalla、Tomar Bar-on、Nitin Sai Bommi、John Angel Calderon Espinoza、Bin Chai、Viraat Chandra、Alice Cheng、Jerry Chen、Xiaoming Chen、Jesus Corbal San Adrian、Ashutosh Dhar、Kefeng Duan、Yubo Gao、Anerudhan Gopal、Wookje Han、Max Hu、Kyle Huang、Kris Hung、Rashid Kaleem、Khubaib Khubaib、Zihao Kong、Tin-Yin Lai、Tao Li、Forrest Lin、Wanqian Li、Alex Liu、Mingyuan Ma、Baorun Mu、Jintao Peng、Yuxian Qiu、Junyi Qiu、Xiaowei Shi、Qidong Su、Olivia Stoner、Jacob Subag、Jiayu Sun、Tong Tong、Harshil Vagadia、Shobhit Verma、Shang Wang、June Yang、Tailing Yuan、Ben Zhang、Zhanda Zhu，以及 NVIDIA 内部许多其他人士，正是他们的努力使这些结果成为可能。

NVIDIA 平台通过极致协同设计实现最低 Token 成本