中文内容
打造全球最强大 AI 工厂的竞赛,要求网络性能必须与人工智能自身的雄心同步发展。
NVIDIA Spectrum-X Ethernet 横向扩展基础设施在这场竞赛中处于领先地位,作为当今最先进的 AI 网络技术,已被那些在性能、韧性或规模上不容妥协的行业领军企业广泛部署。
其中包括 OpenAI、Microsoft 和 Oracle。
包括 NVIDIA、Microsoft 和 OpenAI 在内的公司通过引入 Multipath Reliable Connection (MRC) 这一 RDMA 传输协议,展现了行业领导力。MRC 允许单个 RDMA 连接将流量分配至多条网络路径,从而提升大规模 AI 训练网络的吞吐量、负载均衡能力与可用性。
可以将其理解为:用一套精心规划的道路网格系统搭配实时交通应用,取代贯穿城镇的单行道路,使驾驶员能够实时绕开拥堵或封闭路段重新规划路线。
OpenAI 工业计算负责人 Sachin Katti 表示:“在 Blackwell 架构上部署 MRC 非常成功,这得益于与 NVIDIA 的紧密合作。”“MRC 的端到端方案使我们得以规避大量典型的网络相关延迟与中断,从而在大规模开展前沿训练时保持高效。”
此外,Microsoft 与 NVIDIA 保持着长期合作,专注于推进下一代 AI 所需的基础设施。Microsoft 的 Fairwater 和 Oracle Cloud Infrastructure (OCI) 的 Abilene 数据中心是两座规模最大的 AI 工厂,专为训练和部署前沿 LLM 而构建,它们均依赖 MRC 来满足性能、规模和效率方面的要求。NVIDIA Spectrum-X Ethernet 非常适合此类环境,有助于提供所需的网络基础,从而让人充满信心地运行大规模 AI 模型与应用。
MRC 率先在生产环境中得到验证,其性能在 NVIDIA Spectrum-X Ethernet 硬件上经过优化,现作为开放规范通过 Open Compute Project 发布。MRC 彰显了 Spectrum-X Ethernet 平台的强大实力:专用硬件、深度遥测与智能网络控制协同工作,将一种新协议(即控制数据如何在网络上两个系统之间传输的一组规则)从概念成功落地至超大规模 AI 生产环境。
MRC 通过在所有可用路径上进行流量负载均衡,实现了极高的 GPU 利用率,确保每个 GPU 在整个训练运行期间都能获得所需的带宽。即使在网络拥塞的情况下,它也能通过实时动态避开过载路径,持续维持高带宽。
发生数据丢失时,智能重传可实现快速、精准的恢复,最大限度降低短暂中断对长时间运行任务的影响,从而避免 GPU 闲置时间。
管理员还可获得对流量路径的细粒度可视性与控制能力,简化运维操作并加速大规模环境下的故障排查。
部署于 Spectrum-X Ethernet 的 MRC 经过专项优化与工程设计,旨在实现超大规模下的网络韧性。其故障旁路技术可在短短数微秒内检测网络路径故障,并通过硬件自动完成流量重路由。
这项故障绕过技术对于 AI 训练集群至关重要,因为其中成千上万个 GPU 必须保持同步,即使是短暂的网络中断也可能减缓或中断整个训练任务。Spectrum-X 以太网通过以硬件级速度进行响应来防止此类情况发生,确保流量在超大规模 AI 网络中沿着精确路径持续传输。
实现超大规模 AI 工厂的另一项关键创新是多平面网络设计,OpenAI 在部署 Spectrum-X 以太网时便结合了 MRC。多平面网络由多个独立的网络架构(或称“平面”)组成,每个平面均能为 GPU 之间提供一条备用通信路径。
NVIDIA Spectrum-X 多平面功能通过支持跨平面的硬件加速负载均衡,进一步优化了这一网络架构,在不牺牲性能的前提下提升了系统韧性与扩展规模。这使得网络在扩展至数十万个 GPU 时,延迟仍能稳定保持在极低水平。
借助 Spectrum-X Ethernet,客户可自主选择 RDMA 传输模型。Spectrum-X Ethernet Adaptive RDMA 和 MRC 协议,以及其他自定义协议,均可在 NVIDIA ConnectX SuperNICs 和 Spectrum-X Ethernet 交换机上原生运行,并支持超大规模的多平面网络设计。
如此一来,为当今最大规模 AI 集群提供动力的 Spectrum-X Ethernet 软硬件基础设施,为客户提供了充分的灵活性,使其能够针对自身工作负载选择最合适的传输方式。
MRC 传输协议的最新应用再次证明,业界正将 Spectrum-X Ethernet 作为一个灵活、可组合的平台,实现与现代 AI 基础设施全方位的深度集成。
随着AI工厂规模的持续扩大,网络不仅需要快速传输数据,还必须具备智能、韧性并基于开放标准。NVIDIA Spectrum-X Ethernet 全面满足这三项要求,并凭借 MRC 继续树立先进 AI 网络的标准。
NVIDIA 与 AMD、Broadcom、Intel、Microsoft 和 OpenAI 共同合作开发了 MRC。
请访问网页、数据表和技术白皮书,了解更多关于 NVIDIA Spectrum-X Ethernet 的信息。
请参阅有关软件产品信息的通知。







