ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Thinking Machines Lab博客发布新成果:在策略蒸馏受Qwen启发,成效显著

时间:2025-10-28 12:18:49来源:互联网编辑:快讯

近期,专注于人工智能研究的技术团队Thinking Machines Lab(TML)发布了一篇技术博客,详细阐述了其研发的“在策略蒸馏”训练方法。该方法通过融合强化学习的纠错机制与监督微调的密集反馈,显著提升了小型语言模型在数学推理和个性化助手场景中的表现。

据团队CEO米拉·穆拉蒂介绍,这种技术突破使得仅具备基础能力的轻量级模型,能够通过低成本训练获得特定领域的专业能力。实验数据显示,该方法在数学推理基准测试AIME'24上的表现,超越了传统强化学习所需的计算资源量级,同时避免了离策略训练中常见的“复合错误”问题。

研究团队将训练过程划分为三个阶段:首先通过通用语料库完成模型预训练,使其掌握基础语言能力;继而通过领域文档进行中训练,注入专业知识;最终采用在策略蒸馏进行后训练,确保模型在特定任务中达到专家级表现。相较于传统方法,该方案通过逐token的密集反馈机制,使模型能够精准修正推理路径中的每个步骤。

在数学推理实验中,团队以Qwen3-8B模型为基础,通过150个训练步骤即达成70%的基准测试准确率。相较之下,传统强化学习方法需要17,920个GPU小时才能达到相近水平。这种效率提升得益于蒸馏过程中使用的反向KL散度损失函数,该函数能够精确量化学生模型与教师模型在每个生成token上的分布差异。

技术实现层面,研究团队构建了包含教师模型评估的迭代训练框架。在每轮训练中,学生模型生成推理轨迹后,由高性能教师模型对每个token进行质量评分。通过计算反向KL散度,系统能够精准定位错误根源,而非仅反馈最终结果的正误。这种机制使得模型在处理复杂问题时,能够有效区分运算顺序错误与基础算术失误。

个性化助手开发实验进一步验证了该技术的适应性。当在内部文档数据上进行中训练后,模型的专业知识得分显著提升,但指令遵循能力出现下降。通过引入在策略蒸馏阶段,以早期版本模型作为教师进行行为矫正,研究团队成功恢复了模型的指令响应能力,同时保持了专业知识水平。这种持续学习能力为模型部署后的动态更新提供了可行方案。

技术对比显示,在策略蒸馏在数据利用效率方面具有显著优势。实验表明,单个训练提示通过多次采样生成的轨迹,能够提供比传统强化学习更丰富的监督信号。这种特性使得开发者在数据采集受限的场景下,依然能够完成有效模型训练。

研究团队特别指出,该成果的实现得益于对Qwen3系列模型的深度研究。在技术实现过程中,Qwen3团队的相关研究提供了关键启发,其公开的模型架构与训练数据为实验验证创造了条件。据统计,博客原文中“Qwen”关键词出现频次达38次,凸显了开源模型对技术创新的重要推动作用。

目前,Thinking Machines Lab已通过Tinker训练平台完整开源了技术实现方案。该方案包含从数据准备到模型部署的全流程指导,支持开发者复现数学推理与个性化助手等典型应用场景。研究团队强调,这种训练范式不仅适用于学术研究,更为企业级AI应用开发提供了低成本、高效率的解决方案。

更多热门内容
统筹规划多措并举 推动我国科学数据体系迈向自主可控新征程
科学数据体系为人工智能大模型提供了系统化、标准化、可访问的训练“燃料”,是驱动人工智能在材料设计、药物筛选等科学研究中发挥作用的基础,从而加速新规律发现和重大科学问题突破。 虽然我国科学数据治理能力显著提升,…

2025-10-28

钛动科技推“Navos×钛极”双引擎,李述昊:AI赋能出海,跨越文化差异促增长
李述昊指出,钛动多年在出海生态积累的Know-how,加上AI的加持,让中国的制造业能从“卖便宜”变成“卖喜欢”,最终在全球市场获取更大的成功。其进一步指出,能够快速让消费者决策的东西,一定是高频、冲动、易消…

2025-10-28