ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

谷歌DeepMind解耦式DiLoCo架构:异步训练抗故障,全球分布式训练迎新篇

时间:2026-04-24 16:53:48来源:互联网编辑:快讯

谷歌DeepMind近日宣布推出一种名为“解耦式DiLoCo”的分布式训练架构,这项技术革新为大规模人工智能模型训练带来了显著效率提升,尤其在应对硬件故障时展现出更强的稳定性。传统训练方法依赖所有计算单元同步更新梯度,这种高度耦合的模式导致系统极易因单一硬件故障而整体停滞,而新架构通过解耦设计有效解决了这一痛点。

解耦式DiLoCo的核心机制是将训练任务拆分为多个独立运行的“学习单元”,每个单元可在本地完成多次梯度计算后,仅将压缩后的梯度信息异步传输至中央优化器进行汇总。这种异步通信模式使不同单元无需等待彼此进度,即使部分单元出现故障,其他单元仍能持续训练,从而避免了传统方法中因单点失效导致的训练中断。实验数据显示,在硬件故障率较高的场景下,该架构仍能保持88%的系统利用率,而传统数据并行方法的利用率仅27%。

该架构的另一突破在于显著降低了跨数据中心通信需求。通过优化梯度压缩与传输协议,解耦式DiLoCo将数据中心间带宽消耗从198Gbps压缩至0.84Gbps。这一改进使得利用现有商业互联网基础设施实现全球分布式训练成为可能,大幅降低了跨地域协作的技术门槛与成本。

系统自愈能力是解耦式DiLoCo的又一亮点。在混沌工程测试中,当整个学习单元集群意外失效时,系统不仅能维持剩余单元的训练进程,还能在故障单元恢复后自动重新整合计算资源。这种弹性设计支持不同代际TPU芯片混合使用,既延长了旧设备的使用周期,也缓解了硬件升级过程中的算力瓶颈问题。技术团队表示,这种异构硬件兼容性为资源有限的研究机构提供了更灵活的算力配置方案。

据研发团队介绍,解耦式DiLoCo已在实际场景中完成验证。某千亿参数模型训练任务中,该架构在经历多次硬件故障后仍按时完成训练,且最终模型精度与传统方法持平。这项技术有望推动AI训练向更高效、更可靠的方向发展,特别适用于需要长期运行或跨地域协作的大规模训练项目。

更多热门内容
荣耀600 Pro来袭:全焦段4K实况记录生活,8000mAh大电池续航无忧
其中幸运星ID设计、支持全焦段4KLive、0.98mm极窄四等边、双重磁吸工艺都是行业首发或独家,2亿超清大底主摄、教科书级护眼屏、8000mAh大电池等配置也做到了行业领先。在功能层面,荣耀600 …

2026-05-26

小米汽车电池经1230项严苛测试,安全性能卓越,引领电动车行业新高度
面对电动车的安全问题,你是否也感到过担忧?看到这,可能你会好奇:小米汽车的供应链布局又是怎样的呢?尽管具体份额尚未最终确定,但这一举措无疑显示了小米汽车在供应链管理上的前瞻性。如果你是电动车车主,你会选择这样…

2026-05-26

智能汽车ETF华夏(159888)5月25日涨0.95%,年内份额规模双增超一成
智能汽车ETF华夏(159888)成立于2021年5月13日,基金全称为华夏中证智能汽车主题交易型开放式指数证券投资基金,基金简称为华夏中证智能汽车主题ETF。规模方面,截止5月22日,智能汽车ETF华夏(1…

2026-05-26