元鉴
返回中文阅读流

NVIDIA Developer Blog

使用 NVIDIA DSX Air 设计、模拟并扩展 AI 工厂基础设施

构建 AI 工厂十分复杂,需要高效整合计算、网络、安全和存储系统。NVIDIA DSX Air 可在云端模拟完整基础设施。

中文内容

已翻译official company source英文原文2026-05-26

构建 AI 工厂十分复杂,需要在计算、网络、安全和存储系统之间实现高效集成。为实现快速 Time to AI 和强劲 ROI,新的 NVIDIA DSX Air 正在使组织能够在云端模拟其完整 AI 工厂基础设施,涵盖计算、网络、存储和安全。

在部署硬件之前能够设计、测试和优化系统,可使 AI 工厂的每一层作为统一且优化的系统运行,避免因集成或配置错误问题而导致重大延迟或性能问题。DSX Air 还支持对预置、自动化和安全策略进行持续测试与验证,以简化持续运营。

本文展示用户如何通过 NVIDIA DSX Air 受益,包括加快部署时间线以及简化全栈集群管理。

DSX Air 如何实现 AI 工厂模拟

为使 AI 工厂模拟对最终用户有用且实用,DSX Air 增加了以下增强功能。

保障容量 订阅选项可提供无资源限制的保障容量,支持从预预置到退役的大规模、长期模拟。

统一账户设置 通过与 NVIDIA GPU Cloud 集成,组织和团队可通过 NVIDIA Cloud Account(NCA)管理访问权限和资源。用户可通过 NGC 门户注册加入,接收 NVIDIA 授权,或由账户所有者邀请加入。单个组织为单一用户提供访问权限,而企业级组织——通过 DSX Air 等订阅激活——支持多用户、团队结构和基于角色的访问控制,以实现高效协作和资源共享。

模拟检查点 借助检查点,用户可以保存模拟状态快照,以便暂停并恢复工作,而不会丢失配置更改或数据。当模拟停止时,DSX Air 会自动创建检查点,用户可查看、管理或从任何已保存的检查点重新启动。重要检查点可标记为收藏,以防在达到存储限制时被自动删除,从而确保关键模拟状态得以保留。此功能可简化 AI 基础设施模拟中的迭代测试、配置管理和运营连续性。

An image of a computer screen showing a DSX Air dashboard with a list of simulation checkpoints.An image of a computer screen showing a DSX Air dashboard with a list of simulation checkpoints.
图 1. DSX Air 用于快照和迭代检查点的检查点功能

模拟历史 历史功能提供详细的事件日志,用于跟踪模拟生命周期中的事件。它记录关键信息,如时间戳、事件类型、参与者和描述,涵盖模拟创建、状态变更、检查点操作、用户活动和错误等操作。用户可按关键词筛选条目,以快速定位特定事件,从而更轻松地了解系统行为并高效排查问题。

An image of a computer screen showing a DSX Air dashboard with a list of events about an NVIDIA Air simulation.An image of a computer screen showing a DSX Air dashboard with a list of events about an NVIDIA Air simulation.
图 2. 模拟历史会跟踪模拟生命周期中的关键事件

生态系统增强 生态系统合作伙伴可将其软件镜像引入 Air 平台,以便与服务器、存储和路由器 OEM,以及专注于编排、安全和运营的 ISV 进行深度集成和互操作。借助这一点,组织可构建并验证结合 NVIDIA 基础设施与合作伙伴产品的联合解决方案,确保 GPU、NVIDIA NVLink、以太网交换机、SuperNIC、DPU 以及互补 ISV 工具在第一天即可实现无缝互操作。

面向 AI 工厂全生命周期的 DSX Air 用例

通过模拟采用 NVIDIA Spectrum-X Ethernet 和 NVLink 技术构建的完整计算 Fabric,组织可加速 AI 基础设施的设计、验证和部署。这降低了集成风险并缩短部署周期。团队可自动化预置,测试软件定义配置,并在不依赖物理硬件的情况下评估变更影响。这些生产前验证可提升 AIOps 效率,并确保整个部署生命周期中的系统完整性。

对于下一代基础设施,DSX Air 支持模拟 NVIDIA Spectrum-6 Ethernet 交换机和 NVLink 交换机,用于部署基于 NVIDIA Vera Rubin 平台构建的 AI 工厂。

An image of a computer screen featuring a switch simulated in NVIDIA DSX Air.An image of a computer screen featuring a switch simulated in NVIDIA DSX Air.
图 3. 在 DSX Air 拓扑画布中模拟的 NVIDIA Spectrum-6 SN6600 Ethernet 交换机

CI/CD 集成与 DevOps 赋能

通过其 Python SDK 和 REST API,DSX Air 支持与现代 DevOps 工具链集成。这使得模拟能够以编程方式在 CI/CD 流水线中实例化,以持续验证软件和配置更新。与 Git 和制品仓库的集成还支持自动化部署测试,确保软件交付具备韧性、资源利用得到优化,并保障 AI 工厂运营不中断。

开始使用

DSX Air 为技术培训和技能提升提供安全、按需的环境。该平台包含引导式演示,用于培养使用 NVIDIA 产品的技能,例如 Cumulus Linux、NVIDIA Run:ai、Base 和 Command Manager。

团队还可通过共享模拟复制生产环境,在安全、隔离的工作空间中进行体验式学习。这种方法降低了对专用硬件实验室的依赖,同时促进运营能力和创新。

A screen shows a set of cards corresponding to demos featured in the NVIDIA DSX Air Demo Marketplace.A screen shows a set of cards corresponding to demos featured in the NVIDIA DSX Air Demo Marketplace.
图 4. DSX Air 演示市场展示用于培养 NVIDIA 产品相关技能的引导式演示

使用 DSX Air User Guide 注册 NVIDIA DSX Air 免费试用。阅读 NVIDIA 合作伙伴生态系统如何共同构建覆盖完整数据中心基础设施栈的解决方案。

Like

标签

原文标题

Design, Simulate, and Scale AI Factory Infrastructure with NVIDIA DSX Air