阿里QwenLong-L1-32B：长文本推理新突破，强化学习训练显神威-人工智能-ITBear科技资讯

阿里通义千问Qwen团队近日正式推出了其最新研发成果——QwenLong-L1-32B模型，这一模型在长文本情境推理领域实现了新的突破。据团队介绍，QwenLong-L1-32B是首个通过强化学习训练的长文本情境推理模型（LRM），其性能在多个基准测试中表现优异。

在七个长文本DocQA基准测试中，QwenLong-L1-32B模型的表现超越了o3-mini和Qwen3-235B-A22B等旗舰模型，与Claude-3.7-Sonnet-Thinking模型旗鼓相当。这一成绩不仅展示了QwenLong-L1-32B模型的强大实力，也标志着阿里在长文本推理技术上的又一次飞跃。

QwenLong-L1-32B模型的最大亮点在于其上下文窗口的支持能力，最高可达131072个tokens。这意味着模型在处理长文本时能够捕捉到更多的上下文信息，从而做出更准确的推理。这一特性使得QwenLong-L1-32B模型在长文本推理任务中具有显著的优势。

在模型的开发过程中，阿里通义千问Qwen团队采用了先进的GRPO（Group Relative Policy Optimization）和DAPO（Direct Alignment Policy Optimization）算法，并结合了基于规则和基于模型的混合奖励函数。这些创新技术的应用，显著提升了模型在长上下文推理中的准确性和效率。团队还通过监督微调（SFT）阶段建立了一个稳健的初始策略，并采用课程引导的分阶段强化学习技术来稳定策略演变。

除了模型本身的创新，阿里还发布了一套针对长文本推理问题的完整解决方案。该方案涵盖了高性能的QwenLong-L1-32B模型、专门优化的训练数据集、创新的强化学习训练方法以及全面的性能评估体系。这一解决方案的推出，将为长文本推理领域的研究和应用提供有力的支持。

阿里通义千问Qwen团队的这一成果，不仅展示了其在长文本推理技术上的深厚积累和创新实力，也为人工智能领域的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展，相信QwenLong-L1-32B模型将在更多领域发挥重要作用。