在人工智能大模型领域,长上下文推理能力一直是研究的关键方向。MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存的创新设计,在长上下文推理的显存占用和带宽利用方面实现了双重优化,其有效性已在DeepSeek - V2等模型中得到充分验证。然而,当前主流的预训练模型,如LLaMA、Qwen千问等,大多基于GQA架构构建,企业已围绕这些模型投入大量工程优化资源。若要复用MLA架构,需要对模型进行重新训练,成本高昂,这成为MLA大规模应用的一大阻碍。
为解决这一难题,在北京大学鲲鹏昇腾科教创新卓越中心提供的强大算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出了TransMLA转化框架。该框架无需对主流模型进行重新训练,就能实现向MLA架构的迁移,为解决上述问题提供了创新方案。
TransMLA针对GQA向MLA迁移过程中的核心痛点,精准发力,实现了四大技术模块的突破。在结构映射方面,针对分组KV头与MLA单头潜在表示不兼容的问题,通过特定的线性变换,将GQA分组后的K、V向量投影或融合为单一的低秩潜在表示,并配备投影矩阵,确保KV信息能够精准恢复,为迁移工作筑牢基础。在位置编码融合上,提出了RoRoPE技术方案,通过创新适配,让位置编码能够顺畅融入低秩压缩流程,避免了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题。对于位置信息处理,通过将RoPE中相邻频率的旋转维度进行折叠与融合,在降低参数量的同时,更高效地集中和保留关键位置信息,维持模型在长序列下的语义理解能力。在数值稳定性提升方面,通过均衡Key和Value矩阵在压缩前的范数分布,增强了联合压缩(如PCA)的数值稳定性,减少了信息损失。
在技术落地过程中,昇腾发挥了不可或缺的支撑作用。其高效并行计算架构能够满足结构映射模块多任务协同处理的需求,保障了架构迁移的效率。同时,昇腾优化的存储与缓存体系,为FreqFold的频率信息处理、BKV - PCA的范数均衡提供了稳定的硬件基础,有效提升了KV压缩的稳定性与资源利用效率,助力TransMLA的核心技术得以平稳落地。
实验结果表明,TransMLA在转换过程中展现出显著的性能优势。以裁剪LLaMA - 2 - 7B模型68.75%的KV缓存为例,无需训练的情况下,模型核心性能仅有轻微损失。在32K序列长度、FP16精度下,基于昇腾平台的推理速度相较于业界主流GPU平台有大幅提升。依托开放的生态资源,昇腾积极推动TransMLA稳定支持主流模型部署,并将其集成至vLLM/SGLang等高性能推理框架生态中,方便用户部署,大幅降低了企业落地适配成本。
TransMLA与昇腾的协同创新,成功打通了主流模型与MLA架构之间的鸿沟,充分发挥了昇腾的生态优势。昇腾全链路支持助力TransMLA实现了“零重训、低损失”的目标,保留了模型参数优势,降低了企业基于昇腾进行升级的门槛。这一软硬件协同的典范,为长上下文推理提供了基于昇腾生态的解决方案,推动了自主计算与前沿AI的深度融合,彰显了昇腾在大模型产业中的核心引领作用,为大模型产业依托自主硬件实现降本增效提供了切实可行的路径。
