元鉴
返回中文阅读流

NVIDIA Developer Blog

NVIDIA DSX OS 提供开放、模块化的软件,用于大规模运行 AI 工厂

AI 现在已成为关键基础设施,由以 token 形式生成智能的 AI 工厂提供支持。随着需求增长,这些工厂必须扩展……

中文内容

已翻译official company source英文原文2026-06-05

AI 如今已成为关键基础设施,由以 token 形式生成智能的 AI 工厂提供动力。随着需求增长,这些工厂必须更快扩展、更高效地运行,并在能源、芯片、基础设施、模型和应用这五层堆栈中降低智能成本。

NVIDIA DSX 平台为设计、仿真、构建和运营 AI 工厂提供完整方案,通过共同协同设计的架构,在计算、软件、设施和合作伙伴技术之间对齐堆栈的每一层。

DSX 平台现在包含 DSX OS 软件,以加速 AI 工厂部署并提高运营效率。DSX OS 包含开源的模块化软件组件以及相关 NVIDIA 技术,专为运营和扩展多租户 AI 工厂而构建。

DSX OS 组件共同使 NVIDIA DSX 的 AI 工厂生态系统能够在整个堆栈中采用最新的代理式 AI 基础设施软件,从而提高每瓦 token 数并降低 token 成本,加快部署,并增强运营可靠性和韧性。

Architecture diagram showing NVIDIA DSX OS within the larger NVIDIA DSX platform across hardware, facilities, software, simulation, resiliency, and security layersArchitecture diagram showing NVIDIA DSX OS within the larger NVIDIA DSX platform across hardware, facilities, software, simulation, resiliency, and security layers
图 1:DSX 平台中的 NVIDIA DSX OS 软件。DSX OS 为 AI 工厂运营提供开源软件

为什么 DSX OS 对 AI 工厂生态系统至关重要

AI 工厂必须以最佳状态运行,才能在其消耗的瓦特数下最大化所产生的 token 数量,并为运营者带来真正价值。

为实现这一目标,在数据中心范围内大规模运行 AI 工作负载所涉及的复杂组件网络必须紧密协同运作,这需要在芯片、系统、设施基础设施(如楼宇管理控制、冷却和配电单元)、电网、运行所有这些组件的软件和合作伙伴技术,以及运行在其上的 AI 平台和服务之间进行协调。

DSX OS 软件专为这一由各类组件构成的完整生态系统而设计,提供了一套全面的开放且可扩展的技术与能力,可集成并采用到现有平台和软件中。

这些能力围绕通用架构进行了设计和优化,使所有相关组件能够协同工作,从而实现推动 AI 工厂经济效益的三大主要成果:

1)更快实现收入

NVIDIA 在 NVIDIA DGX Cloud 上构建并运营基础设施和平台软件,而现在该软件正作为开源软件发布。NVIDIA 生态系统合作伙伴可以利用这些组件来交付 AI 服务,而不必从头重新构建,从而省去数月的定制开发。

2)更高效率

电力是 AI 工厂的限制因素,而 DSX 将电力和电网行为作为平台的一部分进行连接,而不是将其作为与其他 AI 基础设施分离的设施问题。借助 DSX 软件,AI 工厂可以在固定电力预算内,以峰值能效运行多达 40% 的更多 GPU,同时对推理工作负载性能的影响极小。

3)更高可靠性与韧性

AI 工厂通过硬件故障、电网事件和运营变化持续运行大规模工作负载。DSX OS 将集群运维从被动告警转变为自动化修复,保持各地区运行时版本一致,并为运营人员提供整个机群范围的可见性。

DSX OS 如何支持吉瓦级 AI 工厂

DSX OS 中的开源模块化组件为构建和运营 AI 工厂提供基础技术,并旨在解决以吉瓦级规模高效、可靠运行 AI 工作负载所面临的独特挑战。

它们通过提供一套协同设计的核心能力来实现这一目标,包括但不限于标准化通信、功耗与效率优化、配置与生命周期运营、健康监测与修复,以及智能平台服务。

以下将更详细介绍 DSX OS 如何提供这些能力:

面向代理式接口的数据中心标准化通信

AI 工厂横跨计算、网络、电力和冷却系统,这些系统都需要无缝互操作。DSX Exchange 通过一个基于 MQTT 的 IT/OT 通信枢纽连接这些组件,使电网事件、热数据和电力异常等设施级信号对管理 AI 工厂其余部分的软件可见,从而使 DSX Flex、MaxLPS 以及合作伙伴软件等组件能够实时响应彼此的状态,提升协调性和效率。

覆盖完整 DSX 栈的 DSX OS 软件组件还将为配置、网络、可观测性等提供 MCP 服务器。借助这些 MCP 服务器,AI 代理可以将工厂的整个运营表面发现为统一的工具目录,使其能够跨每个系统进行交互并执行跨领域关联。在代理式 AI 工厂中,操作员可以轻松地将 GPU 健康事件与热异常相关联,或将网络问题与性能问题相关联,或处理其他潜在场景。

A simplified diagram showing the connections between DSX Exchange, DSX Flex, DSX MaxLPS, provisioning systems such as NVIDIA Infra Controller, facilities components such as Building Management Systems, the power grid, third-party and partneA simplified diagram showing the connections between DSX Exchange, DSX Flex, DSX MaxLPS, provisioning systems such as NVIDIA Infra Controller, facilities components such as Building Management Systems, the power grid, third-party and partne
图 2. DSX Exchange 协调 AI 工厂内部的通信,包括来自 DSX Flex 的电网信号、设施级信号、往返于 DSX MaxLPS 的电力策略、NVIDIA Infra Controller 等配置系统,以及更多内容

电力和效率优化

静态电力分配会使容量搁置,反应式冷却会造成热振荡,而相互割裂的 IT/OT 系统会让电网事件变成一场需要人工应急处理的“消防演练”。DSX MaxLPS 包含将电力视为可编程资源的软件,通过在 GPU、机架、冷却和工作负载层面动态执行策略,使 AI 工厂能够回收搁置电力,以最佳利用率运行额外计算。DSX Flex 将这一能力延伸到工厂围墙之外,提供用于将工作负载连接到电网服务的库,使 AI 工厂能够自动适应需求响应、负荷削减和可再生能源可用性。包括 CoreWeave、Firmus、Lambda、Nscale 和 Phaidra 在内的合作伙伴正在部署 MaxLPS,而 Emerald AI、ENGIE、Silicon Valley Power 和 UK National Grid 正在利用 DSX Flex。

配置和多租户生命周期运营

在大规模环境中,资源配置是一个持续的工作流:节点在租户分配之间循环流转,硬件会被更换,而每一次转换都必须可审计且安全。NVIDIA Infra Controller (NICo) 通过 API 驱动的裸金属生命周期管理,以及借助 NVIDIA BlueField DPUs 和 NVIDIA DOCA Platform Framework 实现的硬件强制租户隔离,使这一过程可编程化。NVIDIA AI Cluster Runtime (AICR) 通过将经过验证的运行时配置捕获为版本锁定的配方来对其进行补充,从而消除会在大规模集群中导致静默故障的配置漂移。

IREN、OpenNebula Systems、Mirantis、Rafay、Red Hat 和 Supermicro 是正在集成这些组件的合作伙伴之一。

健康监控与自动化工具

在大型 GPU 集群中,硬件退化是日常发生的情况,而传统的告警、通知、调查流程过于依赖人工,难以最大限度降低对工作负载的影响。NVIDIA NVSentinel 提供 Kubernetes 原生的 GPU 故障检测和自动修复,可在数秒内而不是数分钟或数小时内隔离不健康的计算节点并排空工作负载。NVIDIA Fleet Intelligence 提供跨全球部署的集群级可见性、完整性验证和健康监控。Lambda 是 Fleet Intelligence 的早期采用者。

Screenshot of the Fleet Intelligence dashboard that summarizes fleet wide aggregations of data such as GPU and memory utilization as well as total GPUs in an up stateScreenshot of the Fleet Intelligence dashboard that summarizes fleet wide aggregations of data such as GPU and memory utilization as well as total GPUs in an up state
图 3. NVIDIA Fleet Intelligence 仪表板汇总了整个集群的数据聚合,例如 GPU 和内存利用率以及处于正常运行状态的 GPU 总数

智能 AI 工作负载调度和平台服务

AI 工作负载需要的不仅仅是 GPU 访问;它们还需要具备拓扑感知的智能调度、分布式推理和生产级 API。KAI Scheduler 和 NVIDIA Run:ai 提供具备 GPU 感知能力的工作负载放置,支持分数分配和分层配额。NVIDIA Dynamo 和 NVIDIA Grove 提供分布式推理服务,支持解耦式预填充/解码以及按阶段自动扩缩容。NVIDIA Cloud Functions (NVCF) 通过统一的 API 将推理、微调和批处理工作负载整合在一起,并内置多租户能力。包括 Aible、Beyond AI、Bhashini、Crusoe、DCAI、Mirantis、Nebius、Rafay、Sarvam、Simplismart、Spectro Cloud、vCluster、Vultr 和 Yotta 在内的合作伙伴正在生产环境中使用其中许多组件。

开始使用

DSX OS 组件可在 GitHub 上获取,并设计用于渐进式采用以及与现有软件栈集成。

从满足您当前最紧迫需求的组件开始,并在此基础上继续构建,利用所提供的功能和技术来加速您的 AI 工厂部署并提升运营效率。

以下提供了一些示例:

  • IT/OT 通信:DSX Exchange
  • 裸机生命周期管理与租户隔离:NVIDIA Infra Controller 和 DOCA Platform Framework
  • 集群可见性、健康状况与完整性:NVIDIA Fleet Intelligence
  • 统一的 AI 推理 API:NVIDIA Cloud Functions

查看 NVIDIA DSX 文档,了解有关 DSX OS 所有组件、实施和参考设计指南、快速入门以及集成指导的更多详细信息。

Like

标签

原文标题

NVIDIA DSX OS Delivers Open, Modular Software for Operating AI Factories at Scale