阿里巴巴与清华团队新突破：让AI摆脱“礼貌陷阱”，输出更精准答案-业界动态-ITBear科技资讯

阿里巴巴Qwen团队联合清华大学、南洋理工大学的研究人员发现，当前主流大语言模型在生成最终回答时，存在一个被忽视的"临门一脚"问题——经过大量对齐训练的模型会在推理链条的最后阶段，将精准的专业表达替换为更保守、通用的词汇。这种为了符合人类期望而自动修正答案的现象，导致模型在科学推理、数学解题等需要精确逻辑的任务中表现下降。相关研究成果已以预印本形式发布，编号为arXiv:2606.21906。

研究团队通过解剖模型内部运行机制，将大语言模型的推理过程划分为三个阶段：初始猜测阶段（前15%层数）、稳定精炼阶段（中间80%层数）和最终扰动阶段（最后5%层数）。实验数据显示，在稳定精炼阶段，相邻层输出的语义方向高度一致，余弦相似度维持在0.91-0.97之间。但进入最终扰动阶段后，更新向量幅度突然增大2-3倍，输出方向与前一层的相似度骤降至0.69，表明模型正在对精心构建的答案进行"重新包装"。

这种自动修正机制源于当前AI训练范式的双重目标：既要保证答案准确性，又要符合人类价值观。基于人类反馈的强化学习（RLHF）等训练方法，使模型倾向于选择更安全、更通用的表达方式。在GPQA Diamond科学问答数据集的测试中，研究人员发现16.2%的词语在最后一层经历了熵值不降反升的"扰动"现象，这种修正虽然降低了争议风险，却破坏了专业领域的逻辑严密性。

针对这一发现，研究团队提出"自信解码"技术，通过动态选择模型推理过程中最自信的中间层作为输出依据。该技术从最后一层开始向前扫描固定窗口（默认10层），当某层的预测熵值不再低于后续层时，即确定该层为输出层。这种方法既保留了模型完整的推理计算过程，又避免了最终扰动阶段的影响，且实现成本极低——在工业级推理引擎vLLM上的测试显示，延迟增加控制在2%以内，内存开销几乎为零。

在六个不同维度的基准测试中，自信解码技术展现出显著效果：Qwen3.5-35B-A3B模型在GPQA Diamond科学推理测试中的准确率从76.3%提升至82.8%，gpt-oss-27B模型在LiveCodeBench代码生成测试中的通过率从63.9%跃升至73.3%。特别值得注意的是，这种提升具有任务难度相关性——在数学竞赛题的最难等级中，gpt-oss-20b模型的准确率从1.1%提升至23.5%，绝对提升达22.4个百分点。

对比实验进一步验证了"对齐税"的存在：经过对齐训练的指令模型在标准解码下表现比基础模型差0.8个百分点，但使用自信解码后反超基础模型3.2个百分点。词语替换率分析显示，指令模型有12.8%的词语被识别为经历扰动，其中21%被替换为更精准的词汇，而基础模型的对应比例分别为10.4%和21%。这表明对齐训练确实在最终层留下了可量化的修改痕迹。

该方法并非万能解决方案。在层数较少（32层）的Qwen3.5-9B模型测试中，自信解码导致GPQA Diamond准确率轻微下降2.5个百分点。研究人员解释，小型混合架构模型的层间表示空间存在较大跳变，容易掩盖真正的熵谷信号，导致选择错误层作为输出。这提示该方法更适用于层数较深、结构均匀的大型模型。

与现有DoLa、SLED等类似方法相比，自信解码展现出独特优势。在混合专家架构测试中，该方法在GPQA Diamond数据集上取得82.8%的准确率，显著高于DoLa的77.3%和SLED的78.8%。这种差异源于自信解码不依赖层间对比信号，而是独立评估每层的绝对置信度，因此对架构异质性具有更强鲁棒性。

该研究的实践意义在于，无需重新训练模型即可提升AI在专业领域的表现。对于普通用户而言，这意味着未来的AI助手在解答复杂问题时，将减少"听起来正确但细节模糊"的回答；对于开发者来说，代码开源（GitHub项目QwenLM/Confident-Decoding）提供了可直接集成的技术方案。这项发现也引发了对AI训练范式的新思考：是否应该将"对齐约束"与"核心推理"分开施加在网络的不同部分，从根本上解决表达精准性与安全性的矛盾。