中文内容
Decoupled DiLoCo:迈向弹性分布式 AI 训练的新前沿
Arthur Douillard 与 DiLoCo 团队


训练前沿 AI 模型传统上依赖一个大型、紧密耦合的系统,其中相同的芯片必须保持近乎完美的同步。这种方法对当今最先进的模型非常有效,但随着我们面向未来更大规模的模型世代,在数千枚芯片之间维持这种同步水平将成为重大的后勤挑战。
今天,我们很高兴在一篇新论文中分享一种解决这一问题的新方法,名为 Decoupled DiLoCo(Distributed Low-Communication,分布式低通信)。通过将大规模训练任务划分到解耦的计算“岛”(islands)中,并在其间进行异步数据流动,该架构能够隔离局部中断,使系统其他部分继续高效学习。
其结果是在全球分布式数据中心之间训练先进模型时,形成了一种更具弹性和灵活性的方式。关键的是,Decoupled DiLoCo 不会遭受以往 Data-Parallel 等分布式方法在全球规模下变得不切实际的通信延迟问题。
随着前沿模型在规模和复杂性上持续增长,我们正在探索多种方法,以便在更多计算资源、更多地点以及多样化硬件上训练模型。


开发更具容错能力的大规模异步训练
Decoupled DiLoCo 建立在两项早期进展之上:Pathways 引入了基于异步数据流的分布式 AI 系统;DiLoCo 则大幅降低了分布式数据中心之间所需的带宽,使跨远距离地点训练大型语言模型变得可行。
Decoupled DiLoCo 将这些理念结合起来,以更灵活的方式进行大规模 AI 模型训练。它构建在 Pathways 之上,支持在独立计算“岛”(称为学习单元)之间进行异步训练,因此某一区域的芯片故障不会中断其他区域的训练进展。
这套基础设施还具备自愈能力。在测试中,我们使用一种名为“混沌工程”的方法,在训练运行期间引入人为硬件故障。Decoupled DiLoCo 在失去整个学习单元后仍继续训练过程,并在这些单元重新上线时将其无缝重新整合。
使用 Gemma 4 模型测试 Decoupled DiLoCo 表明,当硬件发生故障时,与更传统的训练方法相比,该系统能够维持更高的学习集群可用性,同时最终交付相同基准水平的机器学习(ML)性能。
Decoupled DiLoCo 不仅对故障更具弹性,也适用于执行生产级、完全分布式预训练。我们使用 2–5 Gbps 的广域网络,在美国四个不同区域成功训练了一个 120 亿参数模型(这一水平相对可通过现有数据中心设施之间的互联网连接实现,而不需要在设施之间建设新的定制网络基础设施)。值得注意的是,该系统达成这一训练结果的速度比传统同步方法快 20 多倍。这是因为我们的系统将所需通信融入较长的计算周期中,避免了系统某一部分必须等待另一部分的“阻塞”瓶颈。
推动 AI 训练基础设施的演进
在 Google,我们采用全栈方法开展 AI 训练,覆盖硬件、软件基础设施和研究。越来越多的收益来自重新思考这些层级如何协同配合。
Decoupled DiLoCo 就是一个例子。通过在互联网级带宽下支持训练任务,它可以利用任何位置的闲置计算资源,将搁置资源转化为有用容量。
除了效率和弹性之外,这一训练范式还解锁了在单次训练运行中混合不同硬件世代的能力,例如 TPU v6e 和 TPU v5p。这种方法不仅延长了现有硬件的有效使用寿命,也增加了可用于模型训练的总计算量。在我们的实验中,不同世代、不同运行速度的芯片仍能达到单一芯片类型训练运行的 ML 性能,确保即使较旧硬件也能有意义地加速 AI 训练。
此外,由于新一代硬件不会同时到达所有地方,能够跨世代进行训练可以缓解反复出现的后勤和容量瓶颈。
在我们今天推进 AI 基础设施前沿的同时,也在持续探索构建弹性系统的方法,以解锁下一代 AI。
致谢
这项工作由 Google DeepMind 和 Google Research 的跨团队成员共同完成。
Decoupled DiLoCo 的负责人和核心贡献者包括 Arthur Douillard、Keith Rush、Yani Donchev、Zachary Charles、Ayush Dubey、Blake Woodworth、Ionel Gog、Josef Dean、Nova Fallen、Zachary Garrett。运营支持由 Nate Keating 和 Jenny Bishop 提供。
我们也感谢 Jeff Dean、Marc’Aurelio Ranzato、Raia Hadsell、Arthur Szlam、Edouard Yvinec、Henry Prior、Paul Barham、Michael Isard、Daniel Ramage、Brendan McMahan、Chase Hensel 和 Zoltan Egyed 提供的额外支持与建议。