现代大语言模型在处理长文本时,常面临计算成本随文本长度平方级增长的困境。这种被称为"自注意力"的核心机制,要求模型对每个词汇投入同等计算资源,无论其实际信息价值高低。例如处理万字文档时,模型需进行上亿次词汇间关系比对,导致计算效率低下。针对这一难题,研究团队提出新型注意力机制,通过动态分配计算资源实现效率与质量的平衡。
传统优化方案分组查询注意力(GQA)通过共享键值缓存减少存储开销,但仍保持所有查询头全量激活。这相当于让模型对标点符号和关键术语采用相同强度的分析力度,造成计算资源浪费。新机制借鉴混合专家模型(MoE)的稀疏激活理念,在GQA架构基础上引入动态路由机制,使每个词汇仅激活最相关的少数查询专家。
具体实现中,研究团队将注意力模块划分为多个专家组,每组包含多个候选查询专家。当处理新词汇时,轻量级路由模块会根据词汇特征自动选择最匹配的专家组合。实验设置中,16个查询头被划分为8个专家组,每组仅激活1个专家,配合始终在线的共享注意力头,在保证基础性能的同时减少44%的查询计算量。
路由机制的设计面临神经网络训练的核心挑战——离散选择不可微分。研究团队通过双重机制解决这一问题:加权汇总槽利用专家评分生成可微分的综合输出,为路由模块提供学习信号;共享注意力头维持计算稳定性,防止路由学习初期因专家选择随机性导致模型崩溃。辅助的负载均衡损失函数则确保各专家获得均衡训练机会。
对比实验显示,完整设计的模型在三项语言理解基准测试中取得56.04分,较全员激活的GQA基准提升0.18分。更关键的是,当处理32万字以上长文本时,新机制实现1.67-1.80倍的加速效果。这种优势源于其精准跳过了大量低价值词汇的冗余计算,而传统机制无论文本长短都保持固定计算强度。
研究团队特别指出,当前成果基于2.5亿参数规模的模型验证,更大规模模型的适用性仍需验证。每组仅设置2个候选专家的实验设定,也限制了词汇差异化处理的精细度。未来工作将探索扩大专家池规模、优化路由决策算法,以及与Mamba等新型长序列架构的融合可能性。
这项突破为AI处理长文本提供了新思路:通过智能分配计算资源,使模型既能保持对关键信息的深度解析,又能避免对低价值内容的过度消耗。对于需要处理法律文书、科研论文等长文本的AI应用,这种设计可在不牺牲质量的前提下显著提升响应速度,或以相同计算成本处理更长的上下文内容。
Q&A环节,研究团队解释了新机制与GQA的本质区别:前者通过动态路由实现查询计算稀疏化,后者仅优化存储结构。针对组件必要性问题,团队强调加权汇总槽和共享头缺一不可,前者解决路由学习问题,后者维持模型稳定性。对于短文本场景,团队承认路由开销会削弱加速效果,但强调长文本处理才是该技术的核心应用场景。