FrontiersMind新突破：让AI“读文章”更聪明，长文本处理提速近两倍-信息流-ITBear科技资讯

现代大语言模型在处理长文本时，常面临计算成本随文本长度平方级增长的困境。这种被称为"自注意力"的核心机制，要求模型对每个词汇投入同等计算资源，无论其实际信息价值高低。例如处理万字文档时，模型需进行上亿次词汇间关系比对，导致计算效率低下。针对这一难题，研究团队提出新型注意力机制，通过动态分配计算资源实现效率与质量的平衡。

传统优化方案分组查询注意力（GQA）通过共享键值缓存减少存储开销，但仍保持所有查询头全量激活。这相当于让模型对标点符号和关键术语采用相同强度的分析力度，造成计算资源浪费。新机制借鉴混合专家模型（MoE）的稀疏激活理念，在GQA架构基础上引入动态路由机制，使每个词汇仅激活最相关的少数查询专家。

具体实现中，研究团队将注意力模块划分为多个专家组，每组包含多个候选查询专家。当处理新词汇时，轻量级路由模块会根据词汇特征自动选择最匹配的专家组合。实验设置中，16个查询头被划分为8个专家组，每组仅激活1个专家，配合始终在线的共享注意力头，在保证基础性能的同时减少44%的查询计算量。

路由机制的设计面临神经网络训练的核心挑战——离散选择不可微分。研究团队通过双重机制解决这一问题：加权汇总槽利用专家评分生成可微分的综合输出，为路由模块提供学习信号；共享注意力头维持计算稳定性，防止路由学习初期因专家选择随机性导致模型崩溃。辅助的负载均衡损失函数则确保各专家获得均衡训练机会。

对比实验显示，完整设计的模型在三项语言理解基准测试中取得56.04分，较全员激活的GQA基准提升0.18分。更关键的是，当处理32万字以上长文本时，新机制实现1.67-1.80倍的加速效果。这种优势源于其精准跳过了大量低价值词汇的冗余计算，而传统机制无论文本长短都保持固定计算强度。

研究团队特别指出，当前成果基于2.5亿参数规模的模型验证，更大规模模型的适用性仍需验证。每组仅设置2个候选专家的实验设定，也限制了词汇差异化处理的精细度。未来工作将探索扩大专家池规模、优化路由决策算法，以及与Mamba等新型长序列架构的融合可能性。

这项突破为AI处理长文本提供了新思路：通过智能分配计算资源，使模型既能保持对关键信息的深度解析，又能避免对低价值内容的过度消耗。对于需要处理法律文书、科研论文等长文本的AI应用，这种设计可在不牺牲质量的前提下显著提升响应速度，或以相同计算成本处理更长的上下文内容。

Q&A环节，研究团队解释了新机制与GQA的本质区别：前者通过动态路由实现查询计算稀疏化，后者仅优化存储结构。针对组件必要性问题，团队强调加权汇总槽和共享头缺一不可，前者解决路由学习问题，后者维持模型稳定性。对于短文本场景，团队承认路由开销会削弱加速效果，但强调长文本处理才是该技术的核心应用场景。

WPS回应C盘占用问题：将上线磁盘存储管理功能

2026-06-27

2030中国电力装机预计冲到54亿千瓦新能源比重超一半

2026-06-27

2030年电力装机或达54亿千瓦新能源领航清洁转型加速推进

2026-06-27

WPS回应C盘占用困扰：7月新版本增路径选择与存储管理功能

2026-06-27

WPS回应C盘占用难题：新版本增路径选择与存储管理功能

2026-06-27

银河系核心新影像震撼发布：6000万恒星入镜，系外行星探索迎突破

这一成果被天文学界视为系外行星探索领域的重要突破。凭借高灵敏度成像系统，“欧几里得”成功在这一拥挤区域中分辨出单颗恒星，从而获得前所未有的细节图像。未来，人类已知的系外行星数量有望从目前数千颗大幅增长至更高量…

2026-06-27

天文学新发现！“超绒球”行星现身宇宙，密度比棉花糖还轻引关注

这两颗行星由美国宇航局的凌日系外行星巡天卫星（TESS）发现，它们围绕一颗位于南天星座飞马座的恒星运行，距离地球约1110光年。作为对比，木星的密度大约是这两颗行星的35倍，这一数据直观地反映了其蓬松程度。…

2026-06-27

火箭今夏首签引关注！双控卫加盟，1号位阵容深度大升级

如今，火箭不仅选中了一位被称为“小钢炮”的桑顿，还通过双向合同引入了落选秀科普兰，如此一来，两位新控卫让球队的1号位看起来颇为“拥挤”。他不仅能够胜任控球后卫的位置，甚至还可以摇摆至得分后卫，某些时候在小个阵…

2026-06-27

东鹏饮料：所谓饭局视频为凭空捏造、无任何事实依据

2026-06-27

神舟二十三号乘组在轨满月：后续任务亮点多天宫升级“十”字形有何深意？

所以，这又是一个重大任务的突破推进，而除了这个之外，在神舟二十三号还要突破一个大任务转折点，就是在今年要迎接国外航天员的到来，其神舟二十四号预计会有1名国外航天员执行任务，其中2名航天员已经到我国进行训练了…

2026-06-27