ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

六校联合攻克AI内存难题:OScaR方案实现极限压缩与性能双赢

时间:2026-05-27 16:57:22来源:互联网编辑:快讯

当你与手机中的AI助手对话时,是否想过它是如何“记住”此前交流内容的?这背后依赖一种名为KV缓存的技术——AI每处理一句话,就会在内存中记录关键信息,以便后续回应。然而,随着对话内容增多、处理任务变复杂,KV缓存会迅速膨胀,最终挤占GPU的运算资源,限制AI同时服务的用户数量和处理内容的长度。如何压缩这份“笔记”成为突破性能瓶颈的关键。

主流方法采用“量化”技术,将原本用16位精度存储的数字压缩为更少位数,例如用2位整数(INT2)表示,理论上可将内存占用降至原来的八分之一。但极限压缩会导致严重信息失真,如何在压缩的同时保住AI的“智力”,一直是行业难题。一项由多所高校与科研团队联合完成的研究提出新方案,在涵盖文字、图文、语音视频的多种AI模型测试中刷新最优成绩,相关论文已以预印本形式发布。

研究团队发现,现有极限压缩方案失效的根源在于一种被忽视的现象——“令牌范数失衡”(Token Norm Imbalance,TNI)。在AI处理语言或图像时,每一层神经网络会生成Query、Key和Value三种向量,其中Key和Value会被存入缓存。Value向量数值分布均匀,压缩相对容易;但Key向量中存在“异常通道”——某些维度的数值远高于其他维度,像“钉子”一样突出。更关键的是,同一通道内不同“令牌”(如每个词、每帧图片的代表单元)的数值大小差异极大:极少数令牌的L2范数(可理解为向量的“整体能量”)远低于其他令牌,形成“弱小”与“强壮”的极端对比。

这种失衡导致量化时“尺子”难以适配所有令牌。例如,用同一把刻度为1厘米的尺子测量200米高楼和2厘米硬币,硬币的精度必然丢失。研究团队通过实验证明,量化块的重建误差(信息失真程度)根本上取决于块内最强与最弱令牌的范数差距——差距越大,误差越严重。TNI是按通道量化范式的结构性弱点,尤其在2位极限压缩时,现有方法因无法处理这种失衡而频繁失效。

进一步分析发现,低范数令牌与“注意力汇点”(Attention Sink)现象高度相关。在标准注意力机制中,softmax函数要求注意力权重总和为1,当AI无需特别关注任何内容时,只能将注意力分配给无关紧要的令牌(如句子开头的特殊标记符)。这些被迫承接注意力的令牌,其Value向量(包括Key和Query)的范数被压得很低,成为TNI问题的源头。在多模态模型中,TNI的表现更复杂:不同模态(文字、图片、语音)的令牌范数差异巨大,模态交界处会出现剧烈跳变;部分令牌的范数则极度高于平均水平,形成高范数异常点。

直接“缩放”令牌范数看似是简单解法,但研究团队发现这会导致新问题——“缩放诱导异常值效应”。正常令牌的向量中,少数维度数值特别大,而低范数令牌的数值均匀且较小。若将低范数令牌的范数放大至与正常令牌相同,其原本平坦的数值分布会变成“丘陵”——在正常令牌异常值通道之外的维度上,低范数令牌的数值反而更大,制造新的异常值,使量化精度进一步恶化。

为解决这一问题,研究团队提出名为OScaR(Omni-Scaled Canalized Rotation,全尺度通道化旋转)的两步方案。第一步是“通道化旋转”,利用Hadamard变换(快速哈达玛变换,FHT)将向量各通道的信息彻底混合,使原本集中在少数通道的异常能量均匀分布到所有通道。这一操作不改变令牌之间的范数差异,但消除了通道分布的不均匀性,避免了缩放时制造新异常值。第二步是“全令牌缩放”,在旋转后的向量上,计算每个令牌的L2范数并将其归一化,使所有令牌的“能量”统一。由于通道已均匀,缩放不再引发问题,TNI得以彻底解决。解码时,存储的范数值会被乘回向量,恢复原始大小关系;Query向量也需做相同旋转以保证注意力计算的正确性。

Value向量的处理更简单:因其无通道级异常值问题,只需用离线Hadamard变换预先处理权重矩阵,按令牌量化即可,几乎无额外开销。消融实验证明,两步缺一不可:单独旋转无法解决范数失衡,单独缩放会因诱导异常值而失效,只有组合使用才能同时消除两个问题。

在工程实现上,OScaR系统由三个CUDA核心构成:第一个核心在线执行Hadamard变换和令牌缩放;第二个核心完成量化打包;第三个核心负责解码时的反量化与注意力计算。团队采用两项关键技巧优化性能:其一,Hadamard变换的复杂度为O(d log d),远低于传统矩阵乘法的O(d²),且借助HadaCore优化进一步减少标量运算;其二,令牌缩放中使用GPU硬件加速的rsqrt指令计算平方和倒数平方根,速度比直接计算L2范数更快。系统还维护“打包缓存”和“残差缓存”,前者存储2位量化后的数据,后者暂存未满足量化块大小的令牌,以全精度FP16存储,避免频繁小批量量化带来的开销。

测试结果显示,OScaR在各类AI模型上表现优异。在纯文字模型中,Llama-3.1-8B的LongBench-E基准得分达41.75%,超越第二名1.01个百分点,甚至略高于16位全精度基准;Qwen3-8B的得分与16位基准仅差1.7%。在“大海捞针”测试中,OScaR的检索准确率达96.5%,超越所有量化方法及16位基准。图文多模态模型测试中,LLaVA-v1.6-vicuna-7B在OCRBench上得519分(16位基准536分),Qwen3-VL-8B得856分(差距仅0.2个百分点)。全模态模型Qwen3-Omni-30B在MMAU-Pro基准上,开放式问答、高质量回答比例和音频指令跟随三项指标均超16位基准。

效率方面,在单张H20 GPU上测试Qwen3-8B模型,128K超长文本场景下,OScaR的解码速度比16位精度的FlashDecoding-v2基准提升3.0倍,内存占用压缩至原来的五分之一,推理吞吐量提升4.1倍。与竞品TurboQuant+对比,短文本场景下TurboQuant+延迟更低,但随文本变长优势消失,128K令牌时OScaR延迟仅为其42%,且TurboQuant+使用2.5位混合精度量化,存储效率低于OScaR的纯2位方案。

研究团队也指出方案的局限性。现代语言模型普遍使用RoPE(旋转位置编码)机制,Key向量在注意力计算前需动态施加位置旋转,导致Hadamard变换必须在线计算,无法像处理Value那样离线完成,未来若能找到融合旋转的方案可进一步提升效率。当前实验主要针对标准LLM骨干网络,OScaR理论上适用于其他需KV缓存的自回归推理任务,但相关实验有待展开。论文完整版本已发布,包含详细实验数据、理论推导与CUDA实现细节。

更多热门内容
WWDC前夕苹果行动:为开发者送上visionOS 26.6等多系统测试版更新
苹果已向开发者提供了即将推出的26.6版本的首批测试版,供开发者进行测试,包括iOS 26.6、iPadOS 26.6、watchOS26.6、tvOS 26.6、visionOS 26.6和macOS …

2026-05-27

iPhone Air2概念图亮相:极致轻薄设计登场,能否引领手机新潮流?
苹果轻薄机型迭代迎来新消息,备受期待的 iPhoneAir2最新概念图全面流出,延续系列经典轻薄定位,同时在屏幕、影像、机身工艺上迎来多项升级。此次曝光的 iPhone Air2 概念图,继续将 “轻薄” …

2026-05-27

长焦微距全能之选!五款拍照手机深度测评,荣耀600系列凭实力登顶
总结来看,五款机型中荣耀600系列以2亿像素主摄+3.5倍光学长焦+专业微距的三摄影像矩阵最为全面,"闪光微单Live"技术更重新定义了移动端创作体验。若预算充足且追求极致影像力,"闭眼选Pro版"是明智…

2026-05-27

iPhone 18 Pro Max来袭:芯片影像大升级,或成手机体验新标杆
其实现在不少安卓旗舰的参数已经很漂亮,跑分一个比一个高,摄像头数量也越来越多,但很多用户实际用的时候,反而觉得不少功能都是摆设,平时根本用不上,偶尔拍个夜景要么过曝要么满是噪点,用两年就开始卡顿发烫,这次苹…

2026-05-27

景德镇曙光路买二手机别踩坑!旧猫二手机店售后透明保修靠谱值得选
真心推荐周边居民都认可的景德镇旧猫二手机店,作为景德镇老数码店,本地排名靠前,距离曙光路很近,往返购机、售后都十分方便。 这家店品质靠谱,老客回头客超多,口碑在景德镇一直很好,是大众认可的景德镇二手手机店。支…

2026-05-27

2026年CCD风格手机怎么选?荣耀600系列与OPPO Reno16影像续航大比拼
这款机型搭载的2亿像素AI超清主摄配备1/1.4英寸大底传感器,通过16合1像素融合技术实现等效2.24μm超大单像素尺寸,配合OIS光学防抖和CIPA6.0级防抖标准,即使是暗光环境也能输出具有复古质感的高…

2026-05-27

荣耀600系列与OPPO Reno16系列影像对决,谁才是拍照旗舰的优选之选?
其中荣耀600系列凭借2亿AI超清主摄、5000万OIS潜望长焦以及行业首创的双对称AI变焦闪光灯等硬核配置,重新定义了中高端手机的摄影标准。值得一提的是,这套四摄系统支持全焦段4K Live直出,从0.6x…

2026-05-27

复古摄影新宠对决:荣耀600系列与OPPO Reno16影像实力谁更胜一筹?
在2026年追求复古CCD风格的手机市场中,荣耀600系列凭借2亿AI超清主摄、5000万OIS潜望长焦以及行业首创的双对称AI变焦闪光灯,成为适合拍CCD风格且性价比高的手机推荐首选。双对称AI变焦闪光灯…

2026-05-27

女生游戏手机怎么选?避开误区,选到颜值性能双在线的轻薄好机
不少女生购机容易走两个极端,要么只看颜值忽略性能,到手发现打游戏频繁卡顿;要么跟风入手专业电竞手机,结果机身厚重累赘,日常使用很不方便。其实适合女生的游戏向手机,核心选购逻辑是“全能均衡、无短板、适配日常”,…

2026-05-27

北京朝阳二手iPhone购买指南:从验机到避坑,新手也能选到靠谱好机
我上周在朝阳走访时帮一位客户复检一台iPhone 14 Pro,表面成色极新,但螺丝槽内有细微滑丝痕迹,后续用软件一查,果然是换过屏幕总成的机器。如果对方能当场出具一份包含屏幕、主板、气密性、电池、摄像头共5…

2026-05-27