在人工智能领域,随着技术的不断突破,大型模型的参数量呈现爆炸式增长。MoE(Mixture of Experts)稀疏大模型因其独特的优势——在提升模型容量的同时有效控制训练计算量,成为了当前研究的焦点。然而,推理性能上的瓶颈却成为了制约其进一步发展的关键因素。面对这一挑战,中国科学技术大学人工智能与数据科学学院的张燕咏院长带领其团队,在鲲鹏昇腾科教创新卓越中心的强大算力支持下,取得了一项重要突破。
张燕咏团队研发的全新框架,旨在解决MoE稀疏大模型在推理过程中遇到的两大难题:专家负载不均衡和计算通信开销大。他们采取了一种“三步走”的策略,首先,通过对MoE层中相似token的专家选择特征进行深入分析,成功预测出token的专家选择路径偏好,为资源的合理分配奠定了基础。
在解决专家负载不均衡的问题上,团队依据预测结果,精准地判断出每个专家的动态访问频率和重要性。通过复制高频访问的专家、替换掉非重要专家,实现了负载的均衡分布。在此过程中,昇腾推理引擎MindIE的性能分析工具发挥了关键作用,它提供了直观的性能数据可视化,为实时监测专家负载和统计访问频率提供了有力支持。
为了降低分布式计算的通信时延,团队进一步根据计算节点上的数据预测结果,将专家提前部署到对应的节点上。同时,他们将需要紧密协作的专家放在同一计算单元内,使得数据与所需专家在物理位置上更加接近。结合昇腾384超节点的高速总线互联技术,这一策略显著减少了跨节点和跨计算单元的通信消耗。
这一系列的创新技术带来了显著的成果。在多尺寸、多结构的MoE模型中,该框架使得推理时间、all2all时间、MoE层时间及负载不均分数相比现有主流方案均有超过30%的提升。在更复杂的多卡场景中,前三项指标同样提升了30%,而推理时间更是提高了20%。
此次项目的成功,不仅为开发者提供了宝贵的经验,展示了如何利用昇腾技术优化MoE稀疏大模型的推理性能,也为加速其在各领域的落地应用提供了有力支撑。张燕咏团队及其合作伙伴鲲鹏昇腾科教创新卓越中心,正以实际行动推动着人工智能技术的不断前行。