Thinking Machines Lab博客发布新成果：在策略蒸馏受Qwen启发，成效显著-人工智能-ITBear科技资讯

近期，专注于人工智能研究的技术团队Thinking Machines Lab（TML）发布了一篇技术博客，详细阐述了其研发的“在策略蒸馏”训练方法。该方法通过融合强化学习的纠错机制与监督微调的密集反馈，显著提升了小型语言模型在数学推理和个性化助手场景中的表现。

据团队CEO米拉·穆拉蒂介绍，这种技术突破使得仅具备基础能力的轻量级模型，能够通过低成本训练获得特定领域的专业能力。实验数据显示，该方法在数学推理基准测试AIME'24上的表现，超越了传统强化学习所需的计算资源量级，同时避免了离策略训练中常见的“复合错误”问题。

研究团队将训练过程划分为三个阶段：首先通过通用语料库完成模型预训练，使其掌握基础语言能力；继而通过领域文档进行中训练，注入专业知识；最终采用在策略蒸馏进行后训练，确保模型在特定任务中达到专家级表现。相较于传统方法，该方案通过逐token的密集反馈机制，使模型能够精准修正推理路径中的每个步骤。

在数学推理实验中，团队以Qwen3-8B模型为基础，通过150个训练步骤即达成70%的基准测试准确率。相较之下，传统强化学习方法需要17,920个GPU小时才能达到相近水平。这种效率提升得益于蒸馏过程中使用的反向KL散度损失函数，该函数能够精确量化学生模型与教师模型在每个生成token上的分布差异。

技术实现层面，研究团队构建了包含教师模型评估的迭代训练框架。在每轮训练中，学生模型生成推理轨迹后，由高性能教师模型对每个token进行质量评分。通过计算反向KL散度，系统能够精准定位错误根源，而非仅反馈最终结果的正误。这种机制使得模型在处理复杂问题时，能够有效区分运算顺序错误与基础算术失误。

个性化助手开发实验进一步验证了该技术的适应性。当在内部文档数据上进行中训练后，模型的专业知识得分显著提升，但指令遵循能力出现下降。通过引入在策略蒸馏阶段，以早期版本模型作为教师进行行为矫正，研究团队成功恢复了模型的指令响应能力，同时保持了专业知识水平。这种持续学习能力为模型部署后的动态更新提供了可行方案。

技术对比显示，在策略蒸馏在数据利用效率方面具有显著优势。实验表明，单个训练提示通过多次采样生成的轨迹，能够提供比传统强化学习更丰富的监督信号。这种特性使得开发者在数据采集受限的场景下，依然能够完成有效模型训练。

研究团队特别指出，该成果的实现得益于对Qwen3系列模型的深度研究。在技术实现过程中，Qwen3团队的相关研究提供了关键启发，其公开的模型架构与训练数据为实验验证创造了条件。据统计，博客原文中“Qwen”关键词出现频次达38次，凸显了开源模型对技术创新的重要推动作用。

目前，Thinking Machines Lab已通过Tinker训练平台完整开源了技术实现方案。该方案包含从数据准备到模型部署的全流程指导，支持开发者复现数学推理与个性化助手等典型应用场景。研究团队强调，这种训练范式不仅适用于学术研究，更为企业级AI应用开发提供了低成本、高效率的解决方案。