ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里巴巴与清华团队新突破:让AI摆脱“礼貌陷阱”,输出更精准答案

时间:2026-06-26 04:32:25来源:互联网编辑:快讯

阿里巴巴Qwen团队联合清华大学、南洋理工大学的研究人员发现,当前主流大语言模型在生成最终回答时,存在一个被忽视的"临门一脚"问题——经过大量对齐训练的模型会在推理链条的最后阶段,将精准的专业表达替换为更保守、通用的词汇。这种为了符合人类期望而自动修正答案的现象,导致模型在科学推理、数学解题等需要精确逻辑的任务中表现下降。相关研究成果已以预印本形式发布,编号为arXiv:2606.21906。

研究团队通过解剖模型内部运行机制,将大语言模型的推理过程划分为三个阶段:初始猜测阶段(前15%层数)、稳定精炼阶段(中间80%层数)和最终扰动阶段(最后5%层数)。实验数据显示,在稳定精炼阶段,相邻层输出的语义方向高度一致,余弦相似度维持在0.91-0.97之间。但进入最终扰动阶段后,更新向量幅度突然增大2-3倍,输出方向与前一层的相似度骤降至0.69,表明模型正在对精心构建的答案进行"重新包装"。

这种自动修正机制源于当前AI训练范式的双重目标:既要保证答案准确性,又要符合人类价值观。基于人类反馈的强化学习(RLHF)等训练方法,使模型倾向于选择更安全、更通用的表达方式。在GPQA Diamond科学问答数据集的测试中,研究人员发现16.2%的词语在最后一层经历了熵值不降反升的"扰动"现象,这种修正虽然降低了争议风险,却破坏了专业领域的逻辑严密性。

针对这一发现,研究团队提出"自信解码"技术,通过动态选择模型推理过程中最自信的中间层作为输出依据。该技术从最后一层开始向前扫描固定窗口(默认10层),当某层的预测熵值不再低于后续层时,即确定该层为输出层。这种方法既保留了模型完整的推理计算过程,又避免了最终扰动阶段的影响,且实现成本极低——在工业级推理引擎vLLM上的测试显示,延迟增加控制在2%以内,内存开销几乎为零。

在六个不同维度的基准测试中,自信解码技术展现出显著效果:Qwen3.5-35B-A3B模型在GPQA Diamond科学推理测试中的准确率从76.3%提升至82.8%,gpt-oss-27B模型在LiveCodeBench代码生成测试中的通过率从63.9%跃升至73.3%。特别值得注意的是,这种提升具有任务难度相关性——在数学竞赛题的最难等级中,gpt-oss-20b模型的准确率从1.1%提升至23.5%,绝对提升达22.4个百分点。

对比实验进一步验证了"对齐税"的存在:经过对齐训练的指令模型在标准解码下表现比基础模型差0.8个百分点,但使用自信解码后反超基础模型3.2个百分点。词语替换率分析显示,指令模型有12.8%的词语被识别为经历扰动,其中21%被替换为更精准的词汇,而基础模型的对应比例分别为10.4%和21%。这表明对齐训练确实在最终层留下了可量化的修改痕迹。

该方法并非万能解决方案。在层数较少(32层)的Qwen3.5-9B模型测试中,自信解码导致GPQA Diamond准确率轻微下降2.5个百分点。研究人员解释,小型混合架构模型的层间表示空间存在较大跳变,容易掩盖真正的熵谷信号,导致选择错误层作为输出。这提示该方法更适用于层数较深、结构均匀的大型模型。

与现有DoLa、SLED等类似方法相比,自信解码展现出独特优势。在混合专家架构测试中,该方法在GPQA Diamond数据集上取得82.8%的准确率,显著高于DoLa的77.3%和SLED的78.8%。这种差异源于自信解码不依赖层间对比信号,而是独立评估每层的绝对置信度,因此对架构异质性具有更强鲁棒性。

该研究的实践意义在于,无需重新训练模型即可提升AI在专业领域的表现。对于普通用户而言,这意味着未来的AI助手在解答复杂问题时,将减少"听起来正确但细节模糊"的回答;对于开发者来说,代码开源(GitHub项目QwenLM/Confident-Decoding)提供了可直接集成的技术方案。这项发现也引发了对AI训练范式的新思考:是否应该将"对齐约束"与"核心推理"分开施加在网络的不同部分,从根本上解决表达精准性与安全性的矛盾。

更多热门内容
一月三发!TJS-26A入轨,通信技术试验卫星与星链价值逻辑大不同
首先,这次发射的通信技术试验卫星二十六号A星,本身并不是普通意义上的通信载荷,它除了承担通信、广播电视和数据传输等任务之外,更重要的是进行一系列技术验证与试验探索,由中国航天科技集团八院抓总研制,其定位与低轨…

2026-06-26

中国为何执着登月?四大关键因素意义重大,太空竞速不容有失
说句不夸张的话,能不能登上月球、能不能在月球站稳脚跟,关乎的是中华民族未来几十年甚至上百年的国运。五院的青年们深度参与了我国载人航天工程首次应急发射任务,在一线岗位上承担起应急处置、流程把控、多系统联调等重要…

2026-06-26