新加坡国立大学新突破：AI智能体处理长文本如何兼顾速度与精度？-信息流-ITBear科技资讯

新加坡国立大学研究团队近日提出一种名为Mix-Quant的AI推理加速框架，针对需要处理海量文本并频繁交互的智能体应用场景，通过分阶段差异化量化策略实现速度与精度的平衡。该研究以预印本形式发布，论文编号arXiv:2605.20315，实验数据显示其预填充阶段平均加速达3倍，同时保持解码阶段输出质量几乎无损。

在AI执行复杂任务时，如编写代码、调用工具或多轮对话，模型需反复读取全部历史记录和中间结果。研究团队发现，在软件工程任务中，AI需处理22.8万词输入却仅生成3.9万词输出，输入规模可达输出的6倍；在长期记忆管理场景中，这一比例更飙升至36倍。这种"预填充-解码"双阶段架构中，预填充阶段需并行处理全部文本，计算量巨大；解码阶段则逐词生成输出，对精度要求极高。

传统量化技术通过降低数字精度（如FP4仅用4位二进制表示数字）来加速计算，但全程量化会导致输出质量显著下降。研究团队通过实验证明，解码阶段误差会产生"雪球效应"——单个错误指令可能引发后续推理全面崩溃，尤其在数学推理、工具调用等需要严格逻辑的任务中表现明显。相比之下，预填充阶段的量化误差因注意力机制的高度集中性（仅3.125%文本承载95.8%注意力权重），对最终结果影响相对有限。

基于上述发现，Mix-Quant采用"预填充激进量化+解码保持高精度"的混合策略。预填充阶段使用英伟达Blackwell系列显卡专属的NVFP4格式，通过两级缩放机制（局部区块对比度调整+全局亮度校准）在压缩数据的同时保留关键信息。解码阶段则维持BF16标准精度，确保每步推理的准确性。系统架构上，该框架将预填充与解码工作分离部署，通过NIXL高速传输机制衔接两个阶段，避免精度转换开销。

实验测试覆盖Qwen3-8B、Gemma-4-31B等四种主流模型，在NVIDIA RTX 5090显卡上显示：Qwen3-8B模型预填充阶段加速2.21-3.51倍，综合准确率恢复至原始版本的99%；Gemma-4-31B-it模型在数学推理基准上取得与BF16原版几乎相同的成绩。分阶段消融实验进一步验证，仅量化解码阶段的性能损失（3.68分）明显高于仅量化预填充阶段（2.10分），证实了差异化量化策略的合理性。

研究团队指出，Mix-Quant虽存在预填充量化误差对KV缓存的间接影响，但其3倍加速效果在多数应用场景中已具实用价值。该框架的通用性得到验证——不同架构、规模的模型均能受益，且模型规模越大，量化鲁棒性越强。目前研究代码已开源，支持开发者基于NVFP4或其他量化格式（如INT4、FP8）进行扩展。

针对技术细节，研究团队解释称，NVFP4的量化过程包含全局缩放因子与局部区块缩放因子的双重校正，这种设计使其无需复杂校准算法即可实现高效压缩。在应用场景方面，该技术特别适用于输入文本远超输出的任务，如长文档处理、多轮对话管理等，可显著降低服务器运算负载，提升单位硬件的用户服务能力。

当被问及解码阶段是否可能进一步加速时，专家表示，Mix-Quant当前聚焦解决预填充瓶颈，未来可结合稀疏注意力、KV缓存压缩等技术实现全流程优化。另有研究者提出，预填充阶段内部不同网络层对量化的敏感度可能存在差异，探索"层级别"量化策略或成为下一阶段研究方向。