元鉴
返回中文阅读流

NVIDIA Developer Blog

使用 NVIDIA 企业参考架构为 AI 工厂提供动力

下一波企业生产力建立在 AI 工厂之上。随着组织部署具备推理、自动化等能力的智能体 AI 系统...

中文内容

已翻译official company source英文原文2026-05-26

下一波企业生产力浪潮正建立在 AI 工厂之上。随着各组织大规模部署具备推理、自动化和实时决策能力的代理式 AI 系统,竞争优势越来越取决于支撑这些系统的基础设施。

成功所需的不仅仅是原始算力。它需要一个可扩展、可预测的基础,能够编排智能代理,高效管理数据流动,并从试点到生产提供一致的性能。由 NVIDIA 驱动的 AI 工厂为 AI 带来工业级规范,将基础设施转变为推动速度、可靠性和加速创新的战略引擎。

基础设施是 AI 的五个层级之一,也是 AI 工厂的基础。然而,构建这一基础所需的不只是选择高性能硬件。企业需要经过验证的架构指导,以消除集成风险、缩短部署时间,并确保大规模性能。NVIDIA Enterprise Reference Architectures(Enterprise RAs)为本地部署提供此类基础设施指导,定义计算、网络、存储、软件和系统组件如何集成为一个可投入生产的 AI 平台。

借助 Enterprise RAs,组织可以从实验转向可扩展的 AI 运营,以工业级规模生成推动智能和业务成果的 token。NVIDIA Enterprise AI Factory 验证设计通过整合由 NVIDIA 验证的完整 NVIDIA 软件栈和生态系统合作伙伴软件,使企业能够将 AI 工厂投入运营,用于其智能体 AI 工作负载,从而完善了整体方案。

NVIDIA Enterprise RAs 基于 NVIDIA-Certified Systems,并与合作伙伴协作构建,助力企业部署和扩展本地 AI 工厂。这些 RAs 就从 GPU 数量、内存、存储、网络和可观测性,到涵盖硬件、软件、编排和监控的全栈集成等各方面,提供详细的端到端指导。一旦服务器节点通过 NVIDIA-Certified 认证,它们就会成为企业 RA 集群的基础构建模块。

An image of MGX server node designs to NVIDIA-Certified server node configurations to reference architectures for an enterprise-grade AI factory cluster.An image of MGX server node designs to NVIDIA-Certified server node configurations to reference architectures for an enterprise-grade AI factory cluster.
图 1. 从 NVIDIA MGX 服务器设计到 NVIDIA-Certified AI 服务器节点的三阶段演进,最终形成完整的 NVIDIA Enterprise Reference Architecture 集群机架

Enterprise RAs 构成 AI 工厂的基础

要开始构建 AI 工厂,三种 NVIDIA AI Factory 配置可以加速计算架构:NVIDIA RTX PRO AI Factory(配备 NVIDIA RTX PRO Servers)、NVIDIA HGX AI Factory(配备基于 NVIDIA HGX 的系统)以及 NVIDIA NVL72 AI Factory(配备基于 NVIDIA GB300 NVL72 平台的机架级系统)。每种配置在规模、基础设施要求、工作负载和性能目标方面各不相同。

组织可以从符合其当前需求的配置和架构入手,并随着 AI 愿景的扩展而扩展规模。成熟的 AI 部署通常包含上述 AI 工厂配置的混合组合,以优化一系列不同的推理、训练和视觉计算工作负载的性能。

NVIDIA RTX PRO AI Factory:通用加速器

A 2-8-5-200 node reference configuration with NVIDIA RTX PRO 6000 Blackwell Server Edition single-node architecture.A 2-8-5-200 node reference configuration with NVIDIA RTX PRO 6000 Blackwell Server Edition single-node architecture.
图 2. 一个采用 NVIDIA RTX PRO TM 6000 Blackwell Server Edition GPUs 的 2-8-5-200 节点参考配置

NVIDIA RTX PRO AI Factory 基于 2-8-5-200(CPU-GPU-NIC – 东西向带宽)参考配置,为企业 AI 提供模块化、高能效的基础。该架构围绕 NVIDIA RTX PRO Blackwell Server Edition GPU 构建,针对中小型模型推理、微调、生成式 AI、视觉计算和工业 AI 工作负载进行了优化。它使企业能够将 AI 更贴近核心业务工作流——在标准企业数据中心占地空间内支持多模态智能体系统、仿真、分析和渲染。

每台 NVIDIA-Certified RTX PRO Server 最多集成八块 GPU,在灵活的风冷服务器设计中提供高性能 AI 计算。集群部署可从数十块 GPU 扩展到数百块 GPU,并提供支持 128 和 256 块 GPU 集群环境的示例。高速 NVIDIA Spectrum-X 以太网网络和 NVIDIA BlueField-3 加速可实现高效的东西向通信以及安全的南北向数据流。这为大规模企业 AI 推理、数字孪生、视觉计算、科学计算和数据分析奠定了基础。

NVIDIA HGX AI Factory:面向企业 AI 的突破性性能

A 2-8-9-800 node reference configuration with NVIDIA HGX B300 single-node architecture.A 2-8-9-800 node reference configuration with NVIDIA HGX B300 single-node architecture.
图 3. 采用 NVIDIA HGX B300 节点设计的 2-8-9-800 参考配置

NVIDIA HGX AI Factory 配置是大多数大型企业在大规模训练、微调和部署 AI 模型时所采用的标准化基础。它专为持续运行以及在训练和推理工作负载之间实现均衡性能而设计。企业可以部署一些基于 HGX AI Factory 设计的集群,以及另一些基于 RTX PRO AI Factory 设计的集群,这也是 NVIDIA IT 在内部用于运行其自身 AI 工厂的方式。

基于 2-8-9-800 参考配置,NVIDIA HGX AI Factory 面向训练和微调大型语言模型或运行高吞吐量 AI 推理的组织而设计。它能够实现可预测的扩展,同时在需要 AI 性能和运营简便性的多用户企业环境中,保持计算、内存和网络方面的效率。

NVIDIA HGX B300 平台的核心集成了八块 NVIDIA Blackwell Ultra GPU,这些 GPU 通过第五代 NVIDIA NVLink 和 NVSwitch 技术互连,在每个节点内形成一个紧密耦合的高带宽计算域。该平台每块 GPU 最高配备 270 GB HBM3 内存,每个节点的 GPU 总内存最高达 2.1 TB,针对大模型训练、微调以及中到大参数规模的 AI 推理工作负载进行了优化。

采用 NVIDIA ConnectX-8 SuperNIC 的高速 NVIDIA Spectrum-X 以太网网络为跨集群东西向通信提供每个 GPU 高达 800 Gb/s 的带宽,从而在分布式训练和大规模推理期间最大限度减少瓶颈。

NVIDIA NVL72 AI Factory:驱动百亿亿级 AI

2-4-5-800 reference configuration with the NVIDIA GB300 NVL72 rack solution single tray architecture2-4-5-800 reference configuration with the NVIDIA GB300 NVL72 rack solution single tray architecture
图 4. NVIDIA GB300 NVL72 机架级解决方案的 2-4-5-800 托盘参考配置

NVIDIA NVL72 AI Factory 是最先进的机架级平台之一。它面向万亿参数模型和 AI 推理系统时代而构建,采用 NVIDIA GB300 NVL72 系统,在最大化计算、内存和网络资源效率的同时,提供每机架顶级性能。

它专为需要大规模可扩展性,同时又不牺牲可预测性或价值实现速度的组织而设计。该架构针对高强度企业 AI 工作负载进行了优化,包括大规模基础模型训练、微调、高吞吐量多租户推理,以及复杂的 Agentic AI 流水线。

NVL72 AI Factory 是一套集成式液冷机架级系统,结合了 36 个 Grace CPU 和 72 个 Blackwell Ultra GPU,并通过第五代 NVLink 互连。每个 GPU 都通过统一的高带宽 NVLink 结构与其他所有 GPU 通信,使该机架能够作为一个单一、连贯的计算域运行。这种紧密耦合的设计最大限度降低了通信延迟,并消除了传统集群架构中常见的瓶颈。集成的 NVIDIA ConnectX-8 SuperNIC 可确保 AI 训练和推理的高吞吐量东西向流量,而 NVIDIA BlueField DPU 则可简化南北向数据流;二者共同使整个机架能够作为一个统一的数据中心级超级计算机运行。

基于 NVIDIA Enterprise Reference Architectures(RAs)的 AI factory 配置提供了架构基础,但来自我们系统合作伙伴的验证实施才是建立信心的关键。我们的系统合作伙伴使用这些 RAs 构建解决方案,这些解决方案会接受 NVIDIA Design Review Board(DRB)的技术评审,其设计将根据 NVIDIA 定义的准则和标准进行评估。

一些合作伙伴验证技术栈的特定层,而另一些则验证涵盖硬件、软件和网络的完整端到端系统。符合这些要求的设计会被认定为 NVIDIA 认可的解决方案;当前已认可合作伙伴及其产品列表可在 NVIDIA Enterprise RA 文档页面查看。

全球系统合作伙伴正在交付基于 Enterprise RA 的解决方案,并在从小规模试点部署到大型 AI factory 集群的一系列规模点上进行了测试。这种生态系统方法为企业提供了透明度、选择权和信心。

更快的部署和更低的 TCO

企业级 RA 不仅限于系统工程,而是作为可执行方案,用于加速部署并提升长期效率。它们旨在帮助组织:

  • 突破基础设施决策迟疑。
  • 减少重新设计周期和运营开销。
  • 将部署周期从数月缩短至数周。
  • 优化利用率和长期 TCO。
  • 借助 Enterprise Support,最大限度提高正常运行时间并优化性能。

它们不仅提供技术指导,还帮助企业清晰而自信地从概念验证迈向生产。结合 NVIDIA Enterprise AI Factory 验证设计中的软件架构和建议,组织即可获得全栈支持和指导,以部署本地 AI 工厂,更快实现价值,并借助 AI 推动业务创新。

准备好开始了吗?

立即向您的系统制造商或专业合作伙伴咨询基于 NVIDIA Enterprise RA 的解决方案设计。

  • 阅读 NVIDIA-Certified Systems 白皮书。
  • 阅读 NVIDIA Enterprise RA 白皮书。
  • 阅读 NVIDIA Enterprise AI Factory 验证设计指南。
  • 了解更多关于 NVIDIA-Certified Systems 和 NVIDIA Enterprise RAs 的信息。
Like

标签

原文标题

Powering AI Factories with NVIDIA Enterprise Reference Architectures