ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

复旦大学AgentGym-RL框架:小模型大智慧,AI智能体学会复杂任务长期规划

时间:2025-09-23 03:54:03来源:小AI编辑:快讯

复旦大学研究团队近期在人工智能训练领域取得重大突破,开发出一套名为AgentGym-RL的创新训练框架。该框架通过模拟人类渐进式学习过程,成功让仅含70亿参数的小型AI模型在复杂任务中展现出超越千亿参数商业模型的性能。这项成果已发表在arXiv平台,开源代码和数据集同步在GitHub公开。

传统AI训练存在显著局限:多数系统只能处理单次交互的简单任务,面对需要多步骤规划的复杂场景时表现欠佳。研究团队形象地比喻,现有AI就像只会背书的学生,缺乏真正的理解和创新能力。在需要持续互动的任务中,这些系统往往因训练不稳定而崩溃,如同初学者同时学习驾驶和导航般手忙脚乱。

AgentGym-RL框架创造性地设计了五大训练环境,构建起AI的"虚拟游乐园"。网页导航环境模拟真实网站交互,要求AI完成购物、论坛管理等任务;深度搜索环境训练信息检索能力,需整合多个信息源得出结论;数字游戏环境采用文本版Minecraft,考验策略规划和资源管理;具身任务环境通过虚拟空间导航,测试空间推理能力;科学任务环境则专注实验设计和数据分析。

研究团队开发的ScalingInter-RL训练方法堪称框架核心。该方法采用渐进式策略,初期限制AI与环境的交互次数,使其专注掌握基础技能,如同教练先让学员在空旷场地熟悉驾驶。随着训练深入,逐步增加交互复杂度,鼓励探索更高级策略。这种"先易后难"的模式有效解决了传统强化学习中的探索-利用平衡难题。

实验数据显示,经过AgentGym-RL训练的70亿参数模型性能提升达33.65个百分点。在网页导航任务中,该模型准确率达26%,超越GPT-4o的16%和Gemini-2.5-Pro的28%。深度搜索任务表现更为突出,取得38.25分的整体得分,接近顶级开源模型DeepSeek-R1-0528的40.25分。在数字游戏最高难度级别,该模型是少数获得非零分数的系统之一。

研究团队发现,增加测试时的计算资源能显著提升模型表现。当交互回合数从2次增加到30次时,模型准确率稳步上升;并行采样次数从1次增至64次,成功率提升最高达7.05个百分点。这表明,对于AI智能体而言,战略性地投入更多计算资源进行推理,比单纯增加模型参数更有效。

算法比较实验揭示了训练方法的重要性。GRPO算法在多个任务中表现优于REINFORCE++,使用GRPO训练的30亿参数模型性能甚至超过使用REINFORCE++训练的70亿参数模型。研究还发现,训练初期严格限制交互次数能确保稳定性,后期逐步放开则有助于学习复杂策略,这种动态调整策略取得了最佳效果。

案例分析生动展示了训练成果。在网页导航任务中,经过强化学习的模型遇到"页面未找到"错误时,会主动回退到主页使用搜索功能,而基础模型则陷入无效点击循环。具身导航任务中,训练后的模型能系统性探索环境,遇到阻碍时选择替代路径,基础模型则常在已探索区域徘徊。

环境结构对学习效果的影响研究带来重要启示。在规则明确的模拟环境中,如数字游戏和科学实验,强化学习效果最为显著,模型得分提升幅度接近50个百分点。而在更开放的网页导航和深度搜索环境中,提升幅度相对温和。这表明训练初期应优先选择结构化环境,逐步引入复杂场景。

这项研究不仅在技术上取得突破,更体现了方法创新的重要性。通过渐进式训练和多样化环境设计,小规模模型也能获得强大能力。开源框架的发布为全球研究者提供了研究基础,促进了AI智能体技术的普及。研究显示,中国在AI基础研究领域的创新能力正不断提升,为国际AI社区贡献了新的智慧。

对技术细节感兴趣的读者可访问项目GitHub页面获取完整代码和数据集,或查阅arXiv平台上的完整论文(编号:arXiv:2509.08755v1)。这项研究将推动AI从简单问答向真正理解复杂任务、制定长期计划的智能伙伴发展,在网页操作、信息搜索、科学研究等领域展现广阔应用前景。

更多热门内容