近日,人工智能领域迎来一项突破性进展——THINKING MACHINES团队开源了一种名为“在线策略蒸馏”(On-Policy Distillation)的新型大语言模型后训练方法。该方法通过融合强化学习与监督微调的优势,在数学推理、个性化知识迁移等场景中展现出显著效率提升,相关技术细节已在其官方博客公开。
传统模型后训练通常面临两种范式的权衡:强化学习(RL)虽能通过试错学习直接修正错误,但依赖稀疏的最终结果反馈,导致训练效率低下;监督微调(SFT)通过密集的逐词指导加速学习,却容易因数据分布偏差引发复合误差。在线策略蒸馏创新性地将两者结合,其核心在于利用高性能教师模型对学生模型的每一步生成进行实时评分,将稀疏的最终奖励转化为密集的过程奖励。
技术实现层面,该方法通过四个关键步骤构建训练框架:首先部署高性能教师模型作为独立评分模块,仅计算概率而不参与梯度更新;其次让学生模型自主生成完整回答序列,并记录每一步的对数概率;随后教师模型对相同上下文下的生成结果进行逐词评估,计算学生与教师策略的KL散度差异;最终将逆向KL散度作为惩罚信号,驱使学生模型减少与教师行为的偏差。
实验数据显示,在线策略蒸馏在数学推理任务中实现惊人效率提升。以Qwen3系列模型为例,将32B参数教师模型的能力迁移至8B学生模型时,该方法仅需150个训练步骤即可将AIME'24数学竞赛基准得分从60%提升至70%,综合计算效率较传统强化学习提高50-100倍,较纯监督微调降低9-30倍成本。这种效率优势源于教师模型对关键错误路径的精准识别——例如在物理常识推理中,系统能优先惩罚导致逻辑链断裂的早期错误,而非仅关注最终答案。
在模型个性化场景中,在线策略蒸馏同样表现出色。研究团队模拟企业知识库迁移实验时发现,传统监督微调在注入新知识过程中会导致模型原有指令遵循能力大幅下降(从85%跌至45%)。而采用两阶段训练策略:先通过监督微调学习新知识,再利用原始模型作为教师进行在线策略蒸馏,可使指令遵循能力恢复至83%,同时新知识掌握度从36%提升至41%,有效解决了灾难性遗忘问题。
从信息论视角分析,在线策略蒸馏的效率突破源于其逐词监督机制。相比强化学习每个训练回合仅提供O(1)比特信息,该方法每个序列可提供O(N)比特过程信息(N为序列长度)。这种密集反馈使得模型在长序列任务中能更精准地定位错误根源,例如在数学证明中可区分计算错误与逻辑漏洞。实验表明,仅使用单个训练提示通过多轮蒸馏,学生模型性能即可接近使用海量数据训练的教师模型水平。
技术实现层面,该方法已通过Tinker训练API完成验证,其核心优势在于教师模型仅需计算对数概率而无需反向传播,极大降低了计算开销。研究团队特别指出,逆向KL散度作为损失函数具有不可被利用特性,可避免传统奖励模型被“欺骗”的问题,同时驱动模型学习教师特定的行为模式而非次优策略。
目前,该技术已开源完整实现代码,开发者可通过GitHub访问Tinker Cookbook中的蒸馏模块。这项突破为资源受限场景下的模型定制提供了新思路,特别是在需要持续学习新知识的企业应用中,其交替训练模式(监督微调注入知识+在线策略蒸馏恢复能力)展现出显著优势。随着更多实践案例的积累,在线策略蒸馏有望成为推动大语言模型实用化的关键技术之一。