元鉴
返回中文阅读流

Google DeepMind Blog

Decoupled DiLoCo:迈向弹性分布式 AI 训练的新前沿

来自 Google DeepMind Blog 的最新公开更新。

中文内容

已翻译official company source英文原文2026-04-22
2026年4月23日研究

Decoupled DiLoCo:迈向弹性分布式 AI 训练的新前沿

Arthur Douillard 与 DiLoCo 团队

Your browser does not support the video tag. Your browser does not support the video tag.

训练前沿 AI 模型传统上依赖一个大型、紧密耦合的系统,其中相同的芯片必须保持近乎完美的同步。这种方法对当今最先进的模型非常有效,但随着我们面向未来更大规模的模型世代,在数千枚芯片之间维持这种同步水平将成为重大的后勤挑战。

今天,我们很高兴在一篇新论文中分享一种解决这一问题的新方法,名为 Decoupled DiLoCo(Distributed Low-Communication,分布式低通信)。通过将大规模训练任务划分到解耦的计算“岛”(islands)中,并在其间进行异步数据流动,该架构能够隔离局部中断,使系统其他部分继续高效学习。

其结果是在全球分布式数据中心之间训练先进模型时,形成了一种更具弹性和灵活性的方式。关键的是,Decoupled DiLoCo 不会遭受以往 Data-Parallel 等分布式方法在全球规模下变得不切实际的通信延迟问题。

随着前沿模型在规模和复杂性上持续增长,我们正在探索多种方法,以便在更多计算资源、更多地点以及多样化硬件上训练模型。

Your browser does not support the video tag. Your browser does not support the video tag.
图1:将训练任务解耦为独立的计算“岛”(学习单元)后,即使硬件故障水平相同,训练也能基本不中断,因为这些故障的影响被隔离开来。

开发更具容错能力的大规模异步训练

Decoupled DiLoCo 建立在两项早期进展之上:Pathways 引入了基于异步数据流的分布式 AI 系统;DiLoCo 则大幅降低了分布式数据中心之间所需的带宽,使跨远距离地点训练大型语言模型变得可行。

Decoupled DiLoCo 将这些理念结合起来,以更灵活的方式进行大规模 AI 模型训练。它构建在 Pathways 之上,支持在独立计算“岛”(称为学习单元)之间进行异步训练,因此某一区域的芯片故障不会中断其他区域的训练进展。

这套基础设施还具备自愈能力。在测试中,我们使用一种名为“混沌工程”的方法,在训练运行期间引入人为硬件故障。Decoupled DiLoCo 在失去整个学习单元后仍继续训练过程,并在这些单元重新上线时将其无缝重新整合。

使用 Gemma 4 模型测试 Decoupled DiLoCo 表明,当硬件发生故障时,与更传统的训练方法相比,该系统能够维持更高的学习集群可用性,同时最终交付相同基准水平的机器学习(ML)性能。

This set of three bar charts compares the performance of Data-Parallel training against Decoupled DiLoCo across communication, resilience, and accuracy metrics. The first chart, Required Bandwidth, shows that DiLoCo reduces bandwidth needsThis set of three bar charts compares the performance of Data-Parallel training against Decoupled DiLoCo across communication, resilience, and accuracy metrics. The first chart, Required Bandwidth, shows that DiLoCo reduces bandwidth needs
图2:左:与传统训练方法相比,Decoupled DiLoCo 方法所需带宽低数个数量级,因此效率很高。中:随着硬件故障水平上升,Decoupled DiLoCo 仍能提供高水平的“goodput”(有效训练),而其他方法的表现则急剧下降。(前两张图基于模拟训练运行。)右:在真实世界实验中,使用 Decoupled DiLoCo 训练的 Gemma 4 模型,其基准 ML 性能与采用传统训练方法获得的性能相当。

Decoupled DiLoCo 不仅对故障更具弹性,也适用于执行生产级、完全分布式预训练。我们使用 2–5 Gbps 的广域网络,在美国四个不同区域成功训练了一个 120 亿参数模型(这一水平相对可通过现有数据中心设施之间的互联网连接实现,而不需要在设施之间建设新的定制网络基础设施)。值得注意的是,该系统达成这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需通信融入较长的计算周期中,避免了系统某一部分必须等待另一部分的“阻塞”瓶颈。

推动 AI 训练基础设施的演进

在 Google,我们采用全栈方法开展 AI 训练,覆盖硬件、软件基础设施和研究。越来越多的收益来自重新思考这些层级如何协同配合。

Decoupled DiLoCo 就是一个例子。通过在互联网级带宽下支持训练任务,它可以利用任何位置的闲置计算资源,将搁置资源转化为有用容量。

除了效率和弹性之外,这一训练范式还解锁了在单次训练运行中混合不同硬件世代的能力,例如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的有效使用寿命,也增加了可用于模型训练的总计算量。在我们的实验中,不同世代、不同运行速度的芯片仍能达到单一芯片类型训练运行的 ML 性能,确保即使较旧硬件也能有意义地加速 AI 训练。

此外,由于新一代硬件不会同时到达所有地方,能够跨世代进行训练可以缓解反复出现的后勤和容量瓶颈。

在我们今天推进 AI 基础设施前沿的同时,也在持续探索构建弹性系统的方法,以解锁下一代 AI。

致谢

这项工作由 Google DeepMind 和 Google Research 的跨团队成员共同完成。

Decoupled DiLoCo 的负责人和核心贡献者包括 Arthur Douillard、Keith Rush、Yani Donchev、Zachary Charles、Ayush Dubey、Blake Woodworth、Ionel Gog、Josef Dean、Nova Fallen、Zachary Garrett。运营支持由 Nate Keating 和 Jenny Bishop 提供。

我们也感谢 Jeff Dean、Marc’Aurelio Ranzato、Raia Hadsell、Arthur Szlam、Edouard Yvinec、Henry Prior、Paul Barham、Michael Isard、Daniel Ramage、Brendan McMahan、Chase Hensel 和 Zoltan Egyed 提供的额外支持与建议。

原文标题

Decoupled DiLoCo: A new frontier for resilient, distributed AI training