中文内容
在当今的 AI 工厂环境中,性能并非理论问题,而是关乎经济、竞争力和生存的问题。可用 GPU 时间下降 1%,可能意味着每小时损失数百万个 token。数分钟的拥塞可能级联为数小时的恢复时间。机架级电力超额订阅可能导致电力闲置并降低每瓦 token 数,在大规模场景下悄然侵蚀工厂产出。随着 AI 工厂扩展到数千个 GPU,并运行多样化的关键任务工作负载,不可预测的拥塞、电力限制、长尾延迟和可见性不足所带来的成本会呈指数级增长。
运维团队和管理员需要的不只是仪表盘。他们需要灵活性和前瞻能力。
NVIDIA 推出了 NVIDIA Mission Control,这是一个面向基于 NVIDIA 参考架构构建的 AI 工厂的集成软件栈,通过统一控制平面将 NVIDIA 最佳实践规范化。Mission Control 3.0 版本进一步扩展,引入了架构灵活性、多组织隔离、智能电力编排和预测性 AIOps,以检测运行中的异常并最大化 token 产量。

释放速度的灵活软件
NVIDIA Mission Control 3.0 通过引入一种基于模块化服务构建的全新分层、API 驱动架构,带来了前所未有的敏捷性,改进了以往紧密耦合的堆栈;这些堆栈需要跨硬件平台进行同步发布和复杂验证。自动化网络管理和域功率服务等新组件进一步扩展了 Mission Control 堆栈,将更多模块化服务纳入统一控制平面,其中域功率服务为功率优化提供了新的管理平面。
通过将开放组件与模块化设计相结合,这使其能够快速支持最新的 NVIDIA 硬件,同时允许 OEM 系统提供商和独立软件供应商(ISV)将 Mission Control 功能直接集成到其自身生态系统中。由此带来的结果是,企业现在在自己的软件堆栈中拥有更大的灵活性和更多选择,从而更容易定制解决方案,以应对其独特的业务和技术挑战。
多租户世界中的隔离
许多组织面临的一项技术挑战,是在集中式 AI 工厂中支持多组织隔离。随着 AI 工厂从研究和实验发展为生产级、任务关键型环境,多个团队共享基础设施需要强大的组织隔离和安全的多租户能力。
增强版 Mission Control 控制平面将 AI 工厂管理栈转变为软件定义的虚拟化架构。Mission Control 服务与物理管理节点解耦,并使用 NVIDIA 提供的自动化部署在基于虚拟机(KVM)的平台上。虽然计算机架和管理节点按组织专用,但网络交换机是共享的,因此需要为多租户提供额外隔离。NVIDIA Spectrum-X Ethernet 的共享 Fabric 架构使用 VXLAN 进行逻辑分段,NVIDIA Quantum InfiniBand 则使用 PKeys 进行分段。

这种架构减少了物理管理基础设施占用,建立了严格的租户隔离,并为多组织 AI 工厂创建了安全基础。这反过来降低了总体拥有成本,使运营方能够灵活地将多个组织接入共享基础设施,减少购买和运营多个集群的需求,降低物理占用,同时仍为每个组织提供强隔离和自助服务能力。
电力:无形的约束
AI 工厂 token 生产面临的另一个日益突出的担忧,是由于固定公用事业和监管合规等经济约束而形成的固定电力上限。每一代 GPU 都能提供更高性能,但设施电力天然受限于现有数据中心基础设施和可用电网的组合。挑战很明确:如何在不超过电力限制的情况下提高 token 输出和机架密度?
Mission Control 先前版本中的电力管理帮助组织负责任地管理复杂的电力考量,但它是被动式的。作业先被调度;随后才执行电力策略。虽然这在平衡电力和性能方面迈出了巨大一步,但要大规模管理这一点,尤其是在混合 Slurm 和 Kubernetes 环境中,需要更动态的解决方案。这正是 Mission Control 在 3.0 版本中演进的方向。
通过将域级电力服务直接纳入 Mission Control,电力成为一种一等调度原语,帮助组织根据其电力策略优化 token 生产。该电力管理服务支持在传统 Slurm 工作负载或由 NVIDIA Run:ai 编排的 Kubernetes 原生工作负载之间进行电力感知的工作负载放置;NVIDIA Run:ai 已集成并包含在 Mission Control 堆栈中。域级电力服务还支持用于训练和推理的 MAX-P 与 MAX-Q 配置文件,并通过利用 Mission Control 与设施楼宇管理系统的集成,提供机架感知和拓扑感知的预留引导。

在 NVIDIA 运行 MAX-Q 配置文件的一个示例中,域级电力服务使数据中心能够以 85% 的电力运行,而吞吐量仅损失 7%。它能够实现这一点,是通过动态利用 Mission Control 集成的电力配置文件。
该集成使数据中心运营商能够定义设施约束,AI 从业者也可以根据其工作负载优先级,自信地选择性能模式或效率模式。治理保持集中,而灵活性确保 AI 工厂能够针对每瓦最佳性能和每美元最佳性能进行调优。
从仪表板到实时决策
除了为动态电源管理提供新服务外,Mission Control 3.0 版还通过与 NVIDIA AIOps Collector and Platform Stacks(NACPS)集成,增强了现有的异常检测能力,实现由 AI 驱动的预测性异常检测。NACPS 的核心是 AI 集群模型,这是一种基于图的基础设施和工作负载表示,可在 GPU、NVIDIA NVLink 纵向扩展、NVIDIA Spectrum-X Ethernet 或 NVIDIA Quantum InfiniBand 东西向横向扩展,以及 NVIDIA BlueField DPU 南北向网络之间创建具备拓扑感知能力的视图。该视图会与集群模型中的作业拓扑相结合。

NACPS 将针对指标的无监督在线机器学习、基于自然语言处理(NLP)的日志分析以检测未知问题、基于标注事件训练的监督学习,以及确定性的基于规则的护栏相结合。
遥测数据从 GPU、交换机、主机、网络接口卡(NIC)和调度器持续流入 NACPS。事件和异常会自动跨层关联,从而实现由上下文驱动的根因分析,同时减少告警噪声。系统理解的是相互关系,而不是孤立的指标。
当检测到异常时,Mission Control 可以触发自动化修复工作流,从自动化硬件恢复开始,该恢复可与 NVIDIA Base Command Manager 中的 Slurm 集成,或与面向 Kubernetes 工作负载的 NVIDIA Run:ai 协同工作。
该系统不仅仅是监控基础设施。它理解基础设施,并据此采取行动。
运维人员不再需要追逐症状。他们获得的是预见能力。
一种不同类型的 KPI:利用率与 token 产出
随着 AI 工厂运营持续演进,运营团队需要考虑一种不同类型的 KPI。传统数据中心以利用率为优化目标,但 AI 工厂需要以 token 产出为优化目标。
为了使 AI 工厂针对 token 产出进行优化,企业需要考虑每个 GPU 和每个机架的 token 产出,以及每瓦和每兆瓦的 token 产出等指标。每一处低效都会直接降低总体 token 输出。如果网络结构中的拥塞未被检测和缓解,或者单个机架意外超出其功率约束,或者计算节点在作业中途出现异常——AI 工厂就会损失 token 生成量和潜在收入。
然而,当 AI 工厂智能运行时,它能够精准地将每一兆瓦转化为 token,从而最大化产出。
开始使用 Mission Control
Mission Control 3.0 围绕减少低效并提高 AI 工厂运营方的 token 产出而设计。通过关联跨域遥测数据、智能编排电力、将架构模块化以提升敏捷性,并利用 AI 增强自主修复能力,它将基础设施从一个被动平台转变为性能优化的主动参与者。
资源:
- 解决方案概述
- 最新版本说明
敬请关注我们关于 NVIDIA Mission Control 3.0 的最新版本说明和实施指南。您还可以查看 NVIDIA GTC 2026 与 Eli Lilly & Company 会议的点播回放,亲自了解如何借助强大而智能的软件来架构和部署高性能 AI 基础设施。
标签
















