昇腾携手TransMLA架桥梁：零重训实现架构迁移，赋能大模型高效适配-人工智能-ITBear科技资讯

在人工智能大模型领域，长上下文推理能力一直是研究的关键方向。MLA（Multi-head Latent Attention多头潜在注意力架构）凭借低秩压缩KV缓存的创新设计，在长上下文推理的显存占用和带宽利用方面实现了双重优化，其有效性已在DeepSeek - V2等模型中得到充分验证。然而，当前主流的预训练模型，如LLaMA、Qwen千问等，大多基于GQA架构构建，企业已围绕这些模型投入大量工程优化资源。若要复用MLA架构，需要对模型进行重新训练，成本高昂，这成为MLA大规模应用的一大阻碍。

为解决这一难题，在北京大学鲲鹏昇腾科教创新卓越中心提供的强大算力支持下，北京大学人工智能研究院助理教授张牧涵团队提出了TransMLA转化框架。该框架无需对主流模型进行重新训练，就能实现向MLA架构的迁移，为解决上述问题提供了创新方案。

TransMLA针对GQA向MLA迁移过程中的核心痛点，精准发力，实现了四大技术模块的突破。在结构映射方面，针对分组KV头与MLA单头潜在表示不兼容的问题，通过特定的线性变换，将GQA分组后的K、V向量投影或融合为单一的低秩潜在表示，并配备投影矩阵，确保KV信息能够精准恢复，为迁移工作筑牢基础。在位置编码融合上，提出了RoRoPE技术方案，通过创新适配，让位置编码能够顺畅融入低秩压缩流程，避免了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题。对于位置信息处理，通过将RoPE中相邻频率的旋转维度进行折叠与融合，在降低参数量的同时，更高效地集中和保留关键位置信息，维持模型在长序列下的语义理解能力。在数值稳定性提升方面，通过均衡Key和Value矩阵在压缩前的范数分布，增强了联合压缩（如PCA）的数值稳定性，减少了信息损失。

在技术落地过程中，昇腾发挥了不可或缺的支撑作用。其高效并行计算架构能够满足结构映射模块多任务协同处理的需求，保障了架构迁移的效率。同时，昇腾优化的存储与缓存体系，为FreqFold的频率信息处理、BKV - PCA的范数均衡提供了稳定的硬件基础，有效提升了KV压缩的稳定性与资源利用效率，助力TransMLA的核心技术得以平稳落地。

实验结果表明，TransMLA在转换过程中展现出显著的性能优势。以裁剪LLaMA - 2 - 7B模型68.75%的KV缓存为例，无需训练的情况下，模型核心性能仅有轻微损失。在32K序列长度、FP16精度下，基于昇腾平台的推理速度相较于业界主流GPU平台有大幅提升。依托开放的生态资源，昇腾积极推动TransMLA稳定支持主流模型部署，并将其集成至vLLM/SGLang等高性能推理框架生态中，方便用户部署，大幅降低了企业落地适配成本。

TransMLA与昇腾的协同创新，成功打通了主流模型与MLA架构之间的鸿沟，充分发挥了昇腾的生态优势。昇腾全链路支持助力TransMLA实现了“零重训、低损失”的目标，保留了模型参数优势，降低了企业基于昇腾进行升级的门槛。这一软硬件协同的典范，为长上下文推理提供了基于昇腾生态的解决方案，推动了自主计算与前沿AI的深度融合，彰显了昇腾在大模型产业中的核心引领作用，为大模型产业依托自主硬件实现降本增效提供了切实可行的路径。

毕马威2025中国金融科技双50报告：数智化跨越，新老协同绘就行业新篇

技术应用层面，人工智能持续领跑，2025年上榜企业技术要素占比达92%，与大数据、区块链等技术深度协同，渗透至投研、风控等核心场景。未来，随着技术创新深化与监管体系完善，金融科技将在核心技术突破、应用场景拓…

2026-01-13

从声音捕捉到智能理解：MEMS硅麦如何重塑蓝牙耳机听觉体验？

与传统驻极体电容麦克风不同，MEMS麦克风将声学传感器和信号处理电路集成在同一硅芯片上，实现了高度集成化和微型化。更低延迟的实时语音处理更精准的声场重建和空间音频集成生物声学监测功能支持更复杂的远场…

2026-01-13

安霸CES 2026发布CV7芯片：4nm制程加持，AI性能与能效双提升

2026-01-13

安徽芜湖街头现机器人交警“芜优智警R001” 助力交通执勤秩序维护

2026-01-13

百川智能发布Baichuan-M3医疗模型，性能领先，AI医疗应用时代已来

在今日举行的媒体沟通会上，百川智能正式推出新一代开源医疗增强大语言模型Baichuan-M3。该模型在医疗问诊能力、幻觉控制等核心指标上表现突出，在Healthbench和Healthbench Hard两项权威评测中均位列榜首，不仅超越了OpenAI最新发布的GPT-5.2模型，更在全部测试环节中

2026-01-13

8英寸晶圆代工市场“逆袭”：供应缩减需求涨，涨价潮或将来袭

2026-01-13

AI赋能3D打印新体验：创想三维SPARKX i7让“造物”梦想触手可及

2026-01-13

合合信息发力多模态大模型：创新产品落地AI教育、健康管理等多领域

2026-01-13

Anthropic推出Claude Cowork：非开发者也能用AI助手高效处理文件任务

IT之家 1 月 13 日消息，Anthropic 美国当地时间 12 日宣布了 Claude Cowork，其相当于 Claude Code代理 / 智能体编码工具面向包括非开发者群体在内的所有人的衍生版…

2026-01-13