元鉴
返回中文阅读流

NVIDIA Developer Blog

使用统一服务和实时 AI 加速 AI 工厂中的 Token 生产

在当今的 AI 工厂环境中,性能不是理论上的。它是经济的、竞争性的和生存性的。可用 GPU 时间下降 1% 可能意味着……

中文内容

已翻译official company source英文原文2026-05-26

在当今的 AI 工厂环境中,性能并非理论问题,而是关乎经济、竞争力和生存的问题。可用 GPU 时间下降 1%,可能意味着每小时损失数百万个 token。数分钟的拥塞可能级联为数小时的恢复时间。机架级电力超额订阅可能导致电力闲置并降低每瓦 token 数,在大规模场景下悄然侵蚀工厂产出。随着 AI 工厂扩展到数千个 GPU,并运行多样化的关键任务工作负载,不可预测的拥塞、电力限制、长尾延迟和可见性不足所带来的成本会呈指数级增长。

运维团队和管理员需要的不只是仪表盘。他们需要灵活性和前瞻能力。

NVIDIA 推出了 NVIDIA Mission Control,这是一个面向基于 NVIDIA 参考架构构建的 AI 工厂的集成软件栈,通过统一控制平面将 NVIDIA 最佳实践规范化。Mission Control 3.0 版本进一步扩展,引入了架构灵活性、多组织隔离、智能电力编排和预测性 AIOps,以检测运行中的异常并最大化 token 产量。

Four boxes describing benefits of NVIDIA Mission Control: Instant Operational Agility, Extensive Monitoring, Built-in Resiliency, Accelerated AI Token ProductionFour boxes describing benefits of NVIDIA Mission Control: Instant Operational Agility, Extensive Monitoring, Built-in Resiliency, Accelerated AI Token Production
图 1. NVIDIA Mission Control 提供经过验证的软件栈,包含用于运营敏捷性、监控和韧性的服务。

释放速度的灵活软件

NVIDIA Mission Control 3.0 通过引入一种基于模块化服务构建的全新分层、API 驱动架构,带来了前所未有的敏捷性,改进了以往紧密耦合的堆栈;这些堆栈需要跨硬件平台进行同步发布和复杂验证。自动化网络管理和域功率服务等新组件进一步扩展了 Mission Control 堆栈,将更多模块化服务纳入统一控制平面,其中域功率服务为功率优化提供了新的管理平面。

通过将开放组件与模块化设计相结合,这使其能够快速支持最新的 NVIDIA 硬件,同时允许 OEM 系统提供商和独立软件供应商(ISV)将 Mission Control 功能直接集成到其自身生态系统中。由此带来的结果是,企业现在在自己的软件堆栈中拥有更大的灵活性和更多选择,从而更容易定制解决方案,以应对其独特的业务和技术挑战。

多租户世界中的隔离

许多组织面临的一项技术挑战,是在集中式 AI 工厂中支持多组织隔离。随着 AI 工厂从研究和实验发展为生产级、任务关键型环境,多个团队共享基础设施需要强大的组织隔离和安全的多租户能力。

增强版 Mission Control 控制平面将 AI 工厂管理栈转变为软件定义的虚拟化架构。Mission Control 服务与物理管理节点解耦,并使用 NVIDIA 提供的自动化部署在基于虚拟机(KVM)的平台上。虽然计算机架和管理节点按组织专用,但网络交换机是共享的,因此需要为多租户提供额外隔离。NVIDIA Spectrum-X Ethernet 的共享 Fabric 架构使用 VXLAN 进行逻辑分段,NVIDIA Quantum InfiniBand 则使用 PKeys 进行分段。

Diagram showcasing Org 0, Org 1, to Org n networks with isolation between NVIDIA Mission Control services including workload orchestration.Diagram showcasing Org 0, Org 1, to Org n networks with isolation between NVIDIA Mission Control services including workload orchestration.
图 2。使用 NVIDIA Mission Control 的多组织部署为每个需要网络隔离的组织采用虚拟化以及专用的计算平面和控制平面。

这种架构减少了物理管理基础设施占用,建立了严格的租户隔离,并为多组织 AI 工厂创建了安全基础。这反过来降低了总体拥有成本,使运营方能够灵活地将多个组织接入共享基础设施,减少购买和运营多个集群的需求,降低物理占用,同时仍为每个组织提供强隔离和自助服务能力。

电力:无形的约束

AI 工厂 token 生产面临的另一个日益突出的担忧,是由于固定公用事业和监管合规等经济约束而形成的固定电力上限。每一代 GPU 都能提供更高性能,但设施电力天然受限于现有数据中心基础设施和可用电网的组合。挑战很明确:如何在不超过电力限制的情况下提高 token 输出和机架密度?

Mission Control 先前版本中的电力管理帮助组织负责任地管理复杂的电力考量,但它是被动式的。作业先被调度;随后才执行电力策略。虽然这在平衡电力和性能方面迈出了巨大一步,但要大规模管理这一点,尤其是在混合 Slurm 和 Kubernetes 环境中,需要更动态的解决方案。这正是 Mission Control 在 3.0 版本中演进的方向。

通过将域级电力服务直接纳入 Mission Control,电力成为一种一等调度原语,帮助组织根据其电力策略优化 token 生产。该电力管理服务支持在传统 Slurm 工作负载或由 NVIDIA Run:ai 编排的 Kubernetes 原生工作负载之间进行电力感知的工作负载放置;NVIDIA Run:ai 已集成并包含在 Mission Control 堆栈中。域级电力服务还支持用于训练和推理的 MAX-P 与 MAX-Q 配置文件,并通过利用 Mission Control 与设施楼宇管理系统的集成,提供机架感知和拓扑感知的预留引导。

Diagram shows connection between the domain power service, building management systems and the grid as well as between domain power service, resources schedulers, and compute.Diagram shows connection between the domain power service, building management systems and the grid as well as between domain power service, resources schedulers, and compute.
图 3. NVIDIA Mission Control 使用域级电力服务进行全面电力管理,持续监控并优化 AI 工厂中的电力利用率。

在 NVIDIA 运行 MAX-Q 配置文件的一个示例中,域级电力服务使数据中心能够以 85% 的电力运行,而吞吐量仅损失 7%。它能够实现这一点,是通过动态利用 Mission Control 集成的电力配置文件。

该集成使数据中心运营商能够定义设施约束,AI 从业者也可以根据其工作负载优先级,自信地选择性能模式或效率模式。治理保持集中,而灵活性确保 AI 工厂能够针对每瓦最佳性能和每美元最佳性能进行调优。

从仪表板到实时决策

除了为动态电源管理提供新服务外,Mission Control 3.0 版还通过与 NVIDIA AIOps Collector and Platform Stacks(NACPS)集成,增强了现有的异常检测能力,实现由 AI 驱动的预测性异常检测。NACPS 的核心是 AI 集群模型,这是一种基于图的基础设施和工作负载表示,可在 GPU、NVIDIA NVLink 纵向扩展、NVIDIA Spectrum-X Ethernet 或 NVIDIA Quantum InfiniBand 东西向横向扩展,以及 NVIDIA BlueField DPU 南北向网络之间创建具备拓扑感知能力的视图。该视图会与集群模型中的作业拓扑相结合。

AI Factory sends telemetry over https connection to the AIOps Collector and Platform Stack which performs real-time data transformation for machine learning based anomaly detection.AI Factory sends telemetry over https connection to the AIOps Collector and Platform Stack which performs real-time data transformation for machine learning based anomaly detection.
图 4. NVIDIA AIOps Collector and Platform Stacks(NACPS)作为 NVIDIA Mission Control 3.0 的一部分,提供由 AI 驱动的预测性异常检测。它从 AI 工厂代理收集数据,并结合机器学习和关联分析,将预测性工作流和修复措施发送回 AI 工厂。

NACPS 将针对指标的无监督在线机器学习、基于自然语言处理(NLP)的日志分析以检测未知问题、基于标注事件训练的监督学习,以及确定性的基于规则的护栏相结合。

遥测数据从 GPU、交换机、主机、网络接口卡(NIC)和调度器持续流入 NACPS。事件和异常会自动跨层关联,从而实现由上下文驱动的根因分析,同时减少告警噪声。系统理解的是相互关系,而不是孤立的指标。

当检测到异常时,Mission Control 可以触发自动化修复工作流,从自动化硬件恢复开始,该恢复可与 NVIDIA Base Command Manager 中的 Slurm 集成,或与面向 Kubernetes 工作负载的 NVIDIA Run:ai 协同工作。

该系统不仅仅是监控基础设施。它理解基础设施,并据此采取行动。

运维人员不再需要追逐症状。他们获得的是预见能力。

一种不同类型的 KPI:利用率与 token 产出

随着 AI 工厂运营持续演进,运营团队需要考虑一种不同类型的 KPI。传统数据中心以利用率为优化目标,但 AI 工厂需要以 token 产出为优化目标。

为了使 AI 工厂针对 token 产出进行优化,企业需要考虑每个 GPU 和每个机架的 token 产出,以及每瓦和每兆瓦的 token 产出等指标。每一处低效都会直接降低总体 token 输出。如果网络结构中的拥塞未被检测和缓解,或者单个机架意外超出其功率约束,或者计算节点在作业中途出现异常——AI 工厂就会损失 token 生成量和潜在收入。

然而,当 AI 工厂智能运行时,它能够精准地将每一兆瓦转化为 token,从而最大化产出。

开始使用 Mission Control

Mission Control 3.0 围绕减少低效并提高 AI 工厂运营方的 token 产出而设计。通过关联跨域遥测数据、智能编排电力、将架构模块化以提升敏捷性,并利用 AI 增强自主修复能力,它将基础设施从一个被动平台转变为性能优化的主动参与者。

资源:

  • 解决方案概述
  • 最新版本说明

敬请关注我们关于 NVIDIA Mission Control 3.0 的最新版本说明和实施指南。您还可以查看 NVIDIA GTC 2026 与 Eli Lilly & Company 会议的点播回放,亲自了解如何借助强大而智能的软件来架构和部署高性能 AI 基础设施。

Like

标签

原文标题

Accelerate Token Production in AI Factories Using Unified Services and Real-Time AI