中文内容

已翻译official company source英文原文2026-04-22

2026年4月23日研究

Decoupled DiLoCo：迈向弹性分布式 AI 训练的新前沿

Arthur Douillard 与 DiLoCo 团队

训练前沿 AI 模型传统上依赖一个大型、紧密耦合的系统，其中相同的芯片必须保持近乎完美的同步。这种方法对当今最先进的模型非常有效，但随着我们面向未来更大规模的模型世代，在数千枚芯片之间维持这种同步水平将成为重大的后勤挑战。

今天，我们很高兴在一篇新论文中分享一种解决这一问题的新方法，名为 Decoupled DiLoCo（Distributed Low-Communication，分布式低通信）。通过将大规模训练任务划分到解耦的计算“岛”（islands）中，并在其间进行异步数据流动，该架构能够隔离局部中断，使系统其他部分继续高效学习。

其结果是在全球分布式数据中心之间训练先进模型时，形成了一种更具弹性和灵活性的方式。关键的是，Decoupled DiLoCo 不会遭受以往 Data-Parallel 等分布式方法在全球规模下变得不切实际的通信延迟问题。

随着前沿模型在规模和复杂性上持续增长，我们正在探索多种方法，以便在更多计算资源、更多地点以及多样化硬件上训练模型。

图1：将训练任务解耦为独立的计算“岛”（学习单元）后，即使硬件故障水平相同，训练也能基本不中断，因为这些故障的影响被隔离开来。

开发更具容错能力的大规模异步训练

Decoupled DiLoCo 建立在两项早期进展之上：Pathways 引入了基于异步数据流的分布式 AI 系统；DiLoCo 则大幅降低了分布式数据中心之间所需的带宽，使跨远距离地点训练大型语言模型变得可行。

Decoupled DiLoCo 将这些理念结合起来，以更灵活的方式进行大规模 AI 模型训练。它构建在 Pathways 之上，支持在独立计算“岛”（称为学习单元）之间进行异步训练，因此某一区域的芯片故障不会中断其他区域的训练进展。

这套基础设施还具备自愈能力。在测试中，我们使用一种名为“混沌工程”的方法，在训练运行期间引入人为硬件故障。Decoupled DiLoCo 在失去整个学习单元后仍继续训练过程，并在这些单元重新上线时将其无缝重新整合。

使用 Gemma 4 模型测试 Decoupled DiLoCo 表明，当硬件发生故障时，与更传统的训练方法相比，该系统能够维持更高的学习集群可用性，同时最终交付相同基准水平的机器学习（ML）性能。

This set of three bar charts compares the performance of Data-Parallel training against Decoupled DiLoCo across communication, resilience, and accuracy metrics. The first chart, Required Bandwidth, shows that DiLoCo reduces bandwidth needs — 图2：左：与传统训练方法相比，Decoupled DiLoCo 方法所需带宽低数个数量级，因此效率很高。中：随着硬件故障水平上升，Decoupled DiLoCo 仍能提供高水平的“goodput”（有效训练），而其他方法的表现则急剧下降。（前两张图基于模拟训练运行。）右：在真实世界实验中，使用 Decoupled DiLoCo 训练的 Gemma 4 模型，其基准 ML 性能与采用传统训练方法获得的性能相当。

Decoupled DiLoCo 不仅对故障更具弹性，也适用于执行生产级、完全分布式预训练。我们使用 2–5 Gbps 的广域网络，在美国四个不同区域成功训练了一个 120 亿参数模型（这一水平相对可通过现有数据中心设施之间的互联网连接实现，而不需要在设施之间建设新的定制网络基础设施）。值得注意的是，该系统达成这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需通信融入较长的计算周期中，避免了系统某一部分必须等待另一部分的“阻塞”瓶颈。

推动 AI 训练基础设施的演进

在 Google，我们采用全栈方法开展 AI 训练，覆盖硬件、软件基础设施和研究。越来越多的收益来自重新思考这些层级如何协同配合。

Decoupled DiLoCo 就是一个例子。通过在互联网级带宽下支持训练任务，它可以利用任何位置的闲置计算资源，将搁置资源转化为有用容量。

除了效率和弹性之外，这一训练范式还解锁了在单次训练运行中混合不同硬件世代的能力，例如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的有效使用寿命，也增加了可用于模型训练的总计算量。在我们的实验中，不同世代、不同运行速度的芯片仍能达到单一芯片类型训练运行的 ML 性能，确保即使较旧硬件也能有意义地加速 AI 训练。

此外，由于新一代硬件不会同时到达所有地方，能够跨世代进行训练可以缓解反复出现的后勤和容量瓶颈。

在我们今天推进 AI 基础设施前沿的同时，也在持续探索构建弹性系统的方法，以解锁下一代 AI。

阅读我们的技术报告

致谢

这项工作由 Google DeepMind 和 Google Research 的跨团队成员共同完成。

Decoupled DiLoCo 的负责人和核心贡献者包括 Arthur Douillard、Keith Rush、Yani Donchev、Zachary Charles、Ayush Dubey、Blake Woodworth、Ionel Gog、Josef Dean、Nova Fallen、Zachary Garrett。运营支持由 Nate Keating 和 Jenny Bishop 提供。

我们也感谢 Jeff Dean、Marc’Aurelio Ranzato、Raia Hadsell、Arthur Szlam、Edouard Yvinec、Henry Prior、Paul Barham、Michael Isard、Daniel Ramage、Brendan McMahan、Chase Hensel 和 Zoltan Egyed 提供的额外支持与建议。

Decoupled DiLoCo：迈向弹性分布式 AI 训练的新前沿

中文内容

Decoupled DiLoCo：迈向弹性分布式 AI 训练的新前沿

开发更具容错能力的大规模异步训练

推动 AI 训练基础设施的演进

致谢

原文标题