ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里QwenLong-L1-32B:长文本推理新突破,强化学习训练显神威

时间:2025-05-27 14:37:56来源:ITBEAR编辑:快讯团队

阿里通义千问Qwen团队近日正式推出了其最新研发成果——QwenLong-L1-32B模型,这一模型在长文本情境推理领域实现了新的突破。据团队介绍,QwenLong-L1-32B是首个通过强化学习训练的长文本情境推理模型(LRM),其性能在多个基准测试中表现优异。

在七个长文本DocQA基准测试中,QwenLong-L1-32B模型的表现超越了o3-mini和Qwen3-235B-A22B等旗舰模型,与Claude-3.7-Sonnet-Thinking模型旗鼓相当。这一成绩不仅展示了QwenLong-L1-32B模型的强大实力,也标志着阿里在长文本推理技术上的又一次飞跃。

QwenLong-L1-32B模型的最大亮点在于其上下文窗口的支持能力,最高可达131072个tokens。这意味着模型在处理长文本时能够捕捉到更多的上下文信息,从而做出更准确的推理。这一特性使得QwenLong-L1-32B模型在长文本推理任务中具有显著的优势。

在模型的开发过程中,阿里通义千问Qwen团队采用了先进的GRPO(Group Relative Policy Optimization)和DAPO(Direct Alignment Policy Optimization)算法,并结合了基于规则和基于模型的混合奖励函数。这些创新技术的应用,显著提升了模型在长上下文推理中的准确性和效率。团队还通过监督微调(SFT)阶段建立了一个稳健的初始策略,并采用课程引导的分阶段强化学习技术来稳定策略演变。

除了模型本身的创新,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案涵盖了高性能的QwenLong-L1-32B模型、专门优化的训练数据集、创新的强化学习训练方法以及全面的性能评估体系。这一解决方案的推出,将为长文本推理领域的研究和应用提供有力的支持。

阿里通义千问Qwen团队的这一成果,不仅展示了其在长文本推理技术上的深厚积累和创新实力,也为人工智能领域的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展,相信QwenLong-L1-32B模型将在更多领域发挥重要作用。

更多热门内容
字节再推AI剪辑神器“剪小映”,智能成片记录美好瞬间
新榜讯近日,字节正式上线一款名为“剪小映”的App,其宣传口号为“记录美好,智能成片”。这是继“即梦AI”App之后,剪映推出的第二款AI产品,该应用采用了火山引擎的豆包大模型。(Tech星球) …

2025-05-28

DeepSeek R1模型小版升级完成,体验不变,V3升级历程再现
新榜讯 解析:文本讲述了今日DeepSeek在官方交流群发布通知,其R1模型完成小版本试升级,可到官方网页等进行测试且API接口和使用方式不变,还提及今年3月曾对V3模型小版本升级并通过官方交流群率先宣布后续…

2025-05-28

DeepSeek R1模型小升级,新功能等你来体验!
5月28日,DeepSeek宣布其R1模型已完成小版本试升级,新版本仍处于测试阶段。目前用户可以通过官方网页、APP以及小程序进行测试,体验其深度思考功能。值得注意的是,此次升级并未对API接口和使用方式进行…

2025-05-28