ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

上海交大研究LLM强化学习:Llama与Qwen差异及OctoThinker新突破

时间:2025-07-03 11:13:24来源:ITBEAR编辑:快讯团队

在人工智能领域,大型语言模型(LLM)正通过结合任务提示与强化学习(RL)技术,在复杂推理任务上取得显著进展。Deepseek-R1-Zero等模型直接将强化学习应用于基础模型,展现出卓越的推理能力。然而,这一成功并未能在所有基础模型系列中轻松复制,尤其是在Llama系列模型上。

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在竞赛级数学问题上通过大规模强化学习取得了重大突破,推动了对于小型模型(参数少于千亿)强化学习能力的探索。但这些进展大多局限于Qwen模型系列,难以在Llama等模型上重现。预训练流程的缺乏透明度,使得理解预训练如何影响强化学习的扩展变得颇具挑战性。一些非传统研究发现,一次性提示可以增强Qwen的推理能力,但对Llama模型效果有限。尽管OpenWebMath、MathPile等项目致力于构建高质量的数学预训练语料库,但其规模依然有限。

上海交通大学的研究人员针对Qwen和Llama模型,深入探究了中期训练策略对强化学习动态的影响。他们发现,高质量的数学语料库,如MegaMath-Web-Pro,能够同时提升基础模型和强化学习的效果。使用问答式数据,特别是包含长链式推理(Chain-of-Thought, CoT)的数据,可以进一步增强强化学习的效果。然而,长CoT也会在强化学习训练中引入冗长性和不稳定性。研究还发现,在中期训练中应用扩展可以提升下游强化学习的性能。

基于这些发现,研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略。他们首先使用2000亿个token训练基础模型,然后在三个以CoT为中心的分支上使用200亿个token进行训练。这一策略成功生成了具有强大强化学习兼容性的OctoThinker模型。

在强化学习配置和基准评估方面,研究人员使用MATH8K数据集进行训练提示,配置包括全局训练批次大小128、每个查询16个rollout响应以及PPO最小批次大小64。实验在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上进行。在评估中,基础语言模型采用少样本提示,而强化学习调优模型则在GSM8K、MATH500、OlympiadBench和AMC23等指标任务上采用零样本提示。

在强化学习训练期间,Qwen模型的响应长度持续增加并保持在合理范围内,而Llama模型则表现出异常行为,平均响应长度飙升至4096个token。评估结果显示,强化学习调优后的Qwen2.5-3B在各个基准测试中均有所提升,而Llama-3.2-3B的提升则微乎其微。

OctoThinker模型在强化学习兼容性方面表现优异。在13个数学基准测试中,每个OctoThinker分支都比原始Llama基础模型提升了10%-20%,并且在所有规模的稳定阶段模型上都取得了持续提升。OctoThinker-Zero系列在强化学习扩展过程中展现出多样化的思维行为,其中OctoThinker-Long变体表现尤为出色。在比较三个3B规模基础模型时,OctoThinker-Long-3B的表现优于原始Llama-3.2-3B模型,并与以强大推理能力和广泛预训练而闻名的Qwen2.5-3B模型达到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑战性的基准测试中。

更多热门内容