中文内容
大型 GPU 集群的计算能力带来了前所未有的机会,能够以前所未有的速度创新并为客户提供价值。然而,这些进步也伴随着各种挑战。在大规模场景下,团队需要应对异构硬件、快速演进的软件栈、严格的功耗限制,以及波动剧烈的多租户工作负载。单个热点、配置错误的驱动程序或细微的硬件故障都可能产生连锁反应,导致作业被限速、SLA 未达成以及支出浪费。
此外,大规模集群涉及的组件复杂且数量众多,可能令人望而生畏,因此必须保持对日常运营的可见性,并了解任意时刻的运行状态。在作业执行期间监控 GPU 利用率并识别瓶颈会变得更加困难。识别低利用率区域并将工作负载迁移到这些区域,是确保最高投资回报率的最佳方式之一。
基于这些原因,在大规模场景下,具备 GPU 感知能力的监控至关重要。团队需要的不只是了解节点是否在线,还需要知道在任意给定时刻,每个加速器是否都在按预期、安全且稳定地运行。
本文介绍 NVIDIA Fleet Intelligence,这是一项基于代理的托管服务,用于对 NVIDIA 数据中心 GPU 进行持续监控。该服务现已全面可用。
GPU 监控的关键关注领域有哪些?
GPU 监控的重要领域包括功耗、温度、性能、健康状态和统一配置。
- 功耗:跟踪功耗利用率和限频情况,以在保持数据中心预算范围内的同时最大化每瓦性能。
- 温度:及早发现热点和气流问题,以避免热限频和组件过早老化。
- 性能:监控利用率、内存带宽、互连健康状况和限频原因,以发现整个集群中的性能退化和不均衡。
- 健康状况:呈现 ECC 和 XID 错误、退休页面、HBM/NVLink/PCIe 异常以及其他 RAS 信号,以便在部件失效前发现故障部件。
- 统一配置和完整性:作为 GPU 清单验证的一部分,检查驱动程序、固件和 BIOS 设置是否一致,以确保结果可复现和运行安全,并验证固件完整性。
什么是 NVIDIA Fleet Intelligence?
NVIDIA Fleet Intelligence 是一项低层级、与部署无关的托管服务,可不受软件栈或调度器选择限制而使用。最初,该服务支持管理自有基础设施的数据中心 GPU 和 CPU 客户,以及需要更深入了解 GPU 和 CPU 行为的工程师。
该服务利用了 NVIDIA 产品组合中的技术和知识产权,以及通过在 NVIDIA DGX Cloud 中运行由数十万块 GPU 组成的 NVIDIA 集群所获得的经验。
Fleet Intelligence 使用占用资源较低、基于主机的代理,将 GPU 遥测数据流式传回完全托管的 Fleet Intelligence 云服务。NVIDIA 将 Fleet Intelligence 代理作为开源项目发布,以便进行可审计性检查。该代理利用了其他 NVIDIA 开源解决方案,例如 GPUd、NVIDIA Data Center GPU Manager (DCGM) 和 NVIDIA Attestation SDK。要了解更多信息,请访问 GitHub 上的 NVIDIA/fleet-intelligence-agent。Fleet Intelligence 是在早期访问 (EA) 客户的反馈基础上开发的,其中包括 NVIDIA Cloud Partners (NCPs)、Lambda 和 IREN。
此次 GA 版本重点关注三个主要领域:
- 库存和可视化
- 报告、警报和健康检查
- 完整性和证明
库存和可视化
Fleet Intelligence 提供丰富的功能,用于可视化跨数据中心和云的全球机群库存。一个占用资源极小的代理会通过 Linux 包管理器安装,或通过 helm install 安装在 GPU 工作节点上。

注册完成后,代理会捕获节点级信息,并显示在位于 NVIDIA NGC 的 Health 门户中。作为用户,您可以按全球范围或计算区域查看 GPU 机群利用率,包括在同一物理位置或云位置注册的节点组。
在基础设施的任何层级,异常都会立即显现出来——例如,由错误或功耗、温度超过阈值所导致的异常。这使用户能够直接访问并查看触发警报的详细信息。
报告、警报和健康检查
Fleet Intelligence 代理利用来自 GPUd 和 DCGM 的技术。由这两个工具提供的指标会被分析,并传回 Health Service 以供审查。该代理使 Fleet Intelligence 能够近乎实时地监控机群健康状况,并执行定期健康检查。该代理收集主机、GPU、NVLink 和网络方面的遥测数据,以提供整体系统健康状况的全貌。
随着信号被收集,该服务会结合当前状态和历史记录分析错误,并提供补救措施建议。该代理为只读,不会修改主机配置,并且只收集机器遥测数据和状态数据。要验证所收集的数据,你可以在本地写入示例输出,或查看公共代码库中的源代码。
你还可以选择在发生错误或故障时通过电子邮件、Slack 和其他渠道接收警报消息,并为低利用率阈值或其他感兴趣的领域配置自定义警报。用户可以配置报告,以查看库存以及功耗、温度趋势、错误和停机时间的历史图表。

Fleet Intelligence 代理采用被动健康检查以及周期性检查。这些健康检查已可通过 DCGM 和 GPUd 使用。基于运营机群所得经验而创建的新健康检查会在可用时添加。Fleet Intelligence 将持续收集整个安装基础中围绕故障和错误的匿名信号及其他元数据。这种方法能够提高数据保真度,以应用于将在未来版本中提供的预测性故障分类模型。

完整性与证明
借助 NVIDIA Confidential Computing 解决方案的技术,Fleet Intelligence 以加密方式验证 GPU 完整性,确保系统的真实性和可信度。Fleet Intelligence 代理在运行时使用 Attestation SDK 从 GPU 获取测量结果(或称“证据”)。随后,这些测量结果会使用基于 NVIDIA 信任根的设备端证书进行数字签名。
随后,证据会通过安全通道发送至 NVIDIA Remote Attestation Service(NRAS)进行验证。NRAS 服务利用 NVIDIA Reference Integrity Manifests(RIMs),这些结构是在 vBIOS 构建过程中生成的。NRAS 服务会验证证据是否与预期值匹配,并向 Fleet Intelligence 服务返回通过/失败结果。
之后,你可以查看库存仪表板,并看到每天或按需运行的完整性检查结果。这些完整性检查可确保机群中的每个 GPU 都具有已知良好的配置,未被篡改且保持最新。你还可以创建 Fleet Intelligence 报告,详细列出 GPU 机群信息及当前完整性状态。这些报告可以下载,并与其他报告工具配合使用。
Lambda 首席科学官 Chuan Li 表示:“NVIDIA Fleet Intelligence 让 Lambda 的研究团队能够以极少的设置,对我们的 NVIDIA Blackwell/Hopper GPU 集群实现端到端可见性。它的警报既能捕捉正在发生的故障,也能捕捉早期预警信号。它的报告将整个集群的健康状况转化为可执行的洞察。”
开始使用 NVIDIA Fleet Intelligence
NVIDIA Fleet Intelligence 服务可全面洞察 NVIDIA GPU 和 CPU 集群的功耗、温度、性能、健康状况和配置,确保每颗芯片都以最佳效率和可靠性运行。通过集成低占用代理以实现实时遥测,并结合强大的可视化和告警机制,企业能够最大化投资回报率并维持最佳运营标准。
开源的 Fleet Intelligence 代理以及前沿完整性和认证技术的纳入,彰显了 NVIDIA 对透明度和安全性的承诺。随着企业持续扩大 GPU 和 CPU 部署规模,Fleet Intelligence 提供了必要工具,用于应对现代数据中心的复杂性,确保在多样化环境中实现可持续且可预测的性能。
申请访问 NVIDIA Fleet Intelligence,亲身体验它如何提升您的 GPU 集群的可用性和完整性。该服务现已正式发布,并免费提供给 NVIDIA 数据中心 GPU 所有者、运营商和云租户。Fleet Intelligence 支持 NVIDIA 数据中心级 GPU 架构 Vera Rubin、Blackwell 和 Hopper。证明功能仅支持 Vera Rubin 和 Blackwell。
标签















