ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

昇腾携手TransMLA架桥梁:零重训实现架构迁移,赋能大模型高效适配

时间:2026-01-13 18:20:52来源:快讯编辑:快讯

在人工智能大模型领域,长上下文推理能力一直是研究的关键方向。MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存的创新设计,在长上下文推理的显存占用和带宽利用方面实现了双重优化,其有效性已在DeepSeek - V2等模型中得到充分验证。然而,当前主流的预训练模型,如LLaMA、Qwen千问等,大多基于GQA架构构建,企业已围绕这些模型投入大量工程优化资源。若要复用MLA架构,需要对模型进行重新训练,成本高昂,这成为MLA大规模应用的一大阻碍。

为解决这一难题,在北京大学鲲鹏昇腾科教创新卓越中心提供的强大算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出了TransMLA转化框架。该框架无需对主流模型进行重新训练,就能实现向MLA架构的迁移,为解决上述问题提供了创新方案。

TransMLA针对GQA向MLA迁移过程中的核心痛点,精准发力,实现了四大技术模块的突破。在结构映射方面,针对分组KV头与MLA单头潜在表示不兼容的问题,通过特定的线性变换,将GQA分组后的K、V向量投影或融合为单一的低秩潜在表示,并配备投影矩阵,确保KV信息能够精准恢复,为迁移工作筑牢基础。在位置编码融合上,提出了RoRoPE技术方案,通过创新适配,让位置编码能够顺畅融入低秩压缩流程,避免了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题。对于位置信息处理,通过将RoPE中相邻频率的旋转维度进行折叠与融合,在降低参数量的同时,更高效地集中和保留关键位置信息,维持模型在长序列下的语义理解能力。在数值稳定性提升方面,通过均衡Key和Value矩阵在压缩前的范数分布,增强了联合压缩(如PCA)的数值稳定性,减少了信息损失。

在技术落地过程中,昇腾发挥了不可或缺的支撑作用。其高效并行计算架构能够满足结构映射模块多任务协同处理的需求,保障了架构迁移的效率。同时,昇腾优化的存储与缓存体系,为FreqFold的频率信息处理、BKV - PCA的范数均衡提供了稳定的硬件基础,有效提升了KV压缩的稳定性与资源利用效率,助力TransMLA的核心技术得以平稳落地。

实验结果表明,TransMLA在转换过程中展现出显著的性能优势。以裁剪LLaMA - 2 - 7B模型68.75%的KV缓存为例,无需训练的情况下,模型核心性能仅有轻微损失。在32K序列长度、FP16精度下,基于昇腾平台的推理速度相较于业界主流GPU平台有大幅提升。依托开放的生态资源,昇腾积极推动TransMLA稳定支持主流模型部署,并将其集成至vLLM/SGLang等高性能推理框架生态中,方便用户部署,大幅降低了企业落地适配成本。

TransMLA与昇腾的协同创新,成功打通了主流模型与MLA架构之间的鸿沟,充分发挥了昇腾的生态优势。昇腾全链路支持助力TransMLA实现了“零重训、低损失”的目标,保留了模型参数优势,降低了企业基于昇腾进行升级的门槛。这一软硬件协同的典范,为长上下文推理提供了基于昇腾生态的解决方案,推动了自主计算与前沿AI的深度融合,彰显了昇腾在大模型产业中的核心引领作用,为大模型产业依托自主硬件实现降本增效提供了切实可行的路径。

更多热门内容
毕马威2025中国金融科技双50报告:数智化跨越,新老协同绘就行业新篇
技术应用层面,人工智能持续领跑,2025年上榜企业技术要素占比达92%,与大数据、区块链等技术深度协同,渗透至投研、风控等核心场景。未来,随着技术创新深化与监管体系完善,金融科技将在核心技术突破、应用场景拓…

2026-01-13

从声音捕捉到智能理解:MEMS硅麦如何重塑蓝牙耳机听觉体验?
与传统驻极体电容麦克风不同,MEMS麦克风将声学传感器和信号处理电路集成在同一硅芯片上,实现了高度集成化和微型化。 更低延迟的实时语音处理更精准的声场重建和空间音频 集成生物声学监测功能 支持更复杂的远场…

2026-01-13

百川智能发布Baichuan-M3医疗模型,性能领先,AI医疗应用时代已来
在今日举行的媒体沟通会上,百川智能正式推出新一代开源医疗增强大语言模型Baichuan-M3。该模型在医疗问诊能力、幻觉控制等核心指标上表现突出,在Healthbench和Healthbench Hard两项权威评测中均位列榜首,不仅超越了OpenAI最新发布的GPT-5.2模型,更在全部测试环节中

2026-01-13

Anthropic推出Claude Cowork:非开发者也能用AI助手高效处理文件任务
IT之家 1 月 13 日消息,Anthropic 美国当地时间 12 日宣布了 Claude Cowork,其相当于 Claude Code代理 / 智能体编码工具面向包括非开发者群体在内的所有人的衍生版…

2026-01-13