近日,IETF(互联网工程任务组)正式发布了由移动云主导制定的国际标准RFC9793,该标准名为《BGPExtensionsforBitIndexExplicitReplication(BIER)》,针对当前AI大模型在MoE(MixtureofExperts)架构下面临的专家并行通信瓶颈问题,提出了一种创新的解决方案。
随着AI技术步入万亿参数大模型的新时代,MoE架构凭借其出色的性能,成为了AI模型的主流选择。然而,这一架构在AI大模型的训练和推理过程中,专家并行所需的All-to-All通信模式对网络带宽提出了极高的要求。特别是在超节点scale-up网络中,传统的通信模式难以满足这一需求,成为了制约AI大模型进一步发展的关键因素。
移动云此次主导制定的BIER标准,通过引入高效组播方案,成功打破了这一瓶颈。该方案利用无状态组播的特性,实现了AI大模型门控路由器的实时灵活指定,同时能够在数据报文中携带组播接收者列表,从而避免了复杂耗时的组播树建立过程。这一特性与MoE架构中的门控路由器机制高度契合,门控路由器能够根据专家的实时负载水平等因素,为每个Token动态选择对应的TopN专家。通过这种创新的技术方案,All-to-All通信效率得到了显著提升,进而提高了AI大模型的训练和推理效率。
此次BIER标准的发布,不仅标志着移动云在技术创新方面取得了国际权威认可,也彰显了中国在全球互联网标准体系建设中的重要地位。这一标准的制定,为解决MoE架构AI大模型的关键通信瓶颈问题提供了国际通用的技术规范,有望广泛应用于AI超节点产品,进一步提升MoE架构大模型的训练和推理通信效率,降低大模型训练和推理的成本。
在云智算战略持续深化的背景下,AI大模型的训练和推理效率已成为产业发展的核心竞争力。BIER标准的发布,将有力推动AI技术在各行各业的标准化、普惠化应用,为数字化转型提供强有力的技术支撑。同时,这也为移动云在未来继续发挥技术优势,加强AI大模型等前沿技术领域的自主创新奠定了坚实基础。