ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

新加坡国立大学新突破:AI智能体处理长文本如何兼顾速度与精度?

时间:2026-05-29 01:54:44来源:互联网编辑:快讯

新加坡国立大学研究团队近日提出一种名为Mix-Quant的AI推理加速框架,针对需要处理海量文本并频繁交互的智能体应用场景,通过分阶段差异化量化策略实现速度与精度的平衡。该研究以预印本形式发布,论文编号arXiv:2605.20315,实验数据显示其预填充阶段平均加速达3倍,同时保持解码阶段输出质量几乎无损。

在AI执行复杂任务时,如编写代码、调用工具或多轮对话,模型需反复读取全部历史记录和中间结果。研究团队发现,在软件工程任务中,AI需处理22.8万词输入却仅生成3.9万词输出,输入规模可达输出的6倍;在长期记忆管理场景中,这一比例更飙升至36倍。这种"预填充-解码"双阶段架构中,预填充阶段需并行处理全部文本,计算量巨大;解码阶段则逐词生成输出,对精度要求极高。

传统量化技术通过降低数字精度(如FP4仅用4位二进制表示数字)来加速计算,但全程量化会导致输出质量显著下降。研究团队通过实验证明,解码阶段误差会产生"雪球效应"——单个错误指令可能引发后续推理全面崩溃,尤其在数学推理、工具调用等需要严格逻辑的任务中表现明显。相比之下,预填充阶段的量化误差因注意力机制的高度集中性(仅3.125%文本承载95.8%注意力权重),对最终结果影响相对有限。

基于上述发现,Mix-Quant采用"预填充激进量化+解码保持高精度"的混合策略。预填充阶段使用英伟达Blackwell系列显卡专属的NVFP4格式,通过两级缩放机制(局部区块对比度调整+全局亮度校准)在压缩数据的同时保留关键信息。解码阶段则维持BF16标准精度,确保每步推理的准确性。系统架构上,该框架将预填充与解码工作分离部署,通过NIXL高速传输机制衔接两个阶段,避免精度转换开销。

实验测试覆盖Qwen3-8B、Gemma-4-31B等四种主流模型,在NVIDIA RTX 5090显卡上显示:Qwen3-8B模型预填充阶段加速2.21-3.51倍,综合准确率恢复至原始版本的99%;Gemma-4-31B-it模型在数学推理基准上取得与BF16原版几乎相同的成绩。分阶段消融实验进一步验证,仅量化解码阶段的性能损失(3.68分)明显高于仅量化预填充阶段(2.10分),证实了差异化量化策略的合理性。

研究团队指出,Mix-Quant虽存在预填充量化误差对KV缓存的间接影响,但其3倍加速效果在多数应用场景中已具实用价值。该框架的通用性得到验证——不同架构、规模的模型均能受益,且模型规模越大,量化鲁棒性越强。目前研究代码已开源,支持开发者基于NVFP4或其他量化格式(如INT4、FP8)进行扩展。

针对技术细节,研究团队解释称,NVFP4的量化过程包含全局缩放因子与局部区块缩放因子的双重校正,这种设计使其无需复杂校准算法即可实现高效压缩。在应用场景方面,该技术特别适用于输入文本远超输出的任务,如长文档处理、多轮对话管理等,可显著降低服务器运算负载,提升单位硬件的用户服务能力。

当被问及解码阶段是否可能进一步加速时,专家表示,Mix-Quant当前聚焦解决预填充瓶颈,未来可结合稀疏注意力、KV缓存压缩等技术实现全流程优化。另有研究者提出,预填充阶段内部不同网络层对量化的敏感度可能存在差异,探索"层级别"量化策略或成为下一阶段研究方向。

更多热门内容
树莓派经典机型持续出货:12年前Raspberry 1 B+年销数千,Raspberry 6或2028年初亮相
IT之家 5 月 28 日消息,Raspberry(树莓派)官方当地时间本月 21 日在 Reddit 上举行了一次AMA(问我任何事)活动,回答了网友对这一知名单板计算机 (SBC) 项目的最新提问。 I…

2026-05-29

解析IPE483K-BSM直流通讯电源模块:高效稳定助力通信基站供电升级
IPE483K-BSM作为一款3kW级别的-48V整流模块,凭借其高效率、宽电压适应能力以及完善的智能保护功能,在大容量通信供电系统中表现出色。在设备选型或老旧站点改造时,只要核对好功率等级与通讯协议,它将…

2026-05-29

铁路电力巡检遇通信难题?双码流与断点续传技术来“破局”
延迟控制:通过4G/5G网络自适应调度,优秀的方案可以将图传延迟控制在 1秒以内,甚至在5G环境下实现 ≤20ms的毫秒级回传,让后台指挥能看清现场细节。 我们在落地这类智能巡检方案的过程中,还遇到过“多…

2026-05-29