ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

斯坦福团队提出AgentFlow框架:智能体协作“边做边学” 解锁复杂任务新路径

时间:2025-10-24 23:56:35来源:互联网编辑:快讯

在人工智能领域,如何让智能体高效完成复杂推理并灵活调用工具,一直是备受关注的核心问题。传统方法主要分为两类:一类是训练单一的大语言模型,使其同时承担思考和工具调用的双重任务;另一类则依赖静态提示词驱动的“即插即用”型智能体系统。然而,前者在面对长链推理、多样化工具需求以及动态环境反馈时,训练过程往往不稳定,且难以实现规模化扩展;后者则缺乏自我学习和适应能力,难以应对复杂多变的实际场景。

针对这些挑战,斯坦福大学联合德州农工大学、加州大学圣地亚哥分校以及Lambda的研究团队,提出了一种名为AgentFlow的创新框架。该框架通过多个独立智能体模块的协作,结合一种名为Flow-GRPO的强化学习算法,实现了智能体系统在复杂任务中的高效推理与工具调用。实验数据显示,即使基于30亿参数的模型,AgentFlow也能在搜索、代理、数学和科学任务等多个领域超越参数规模达4050亿的Llama-3.1和2000亿的GPT-4o。

AgentFlow的核心创新在于其模块化设计。系统由四个具备记忆能力的专门化智能体组成:规划器负责分析任务、制定策略并选择工具;执行器调用工具集并整合结果;验证器基于累积记忆评估中间结果是否符合目标;生成器则整合所有信息与反馈,生成最终答案或行动建议。与传统方法不同,规划器并非固定不变,而是能够在智能体交互的“流”中实时优化,使决策过程随着环境变化和其他智能体的反馈不断自适应调整。

为了实现这一目标,研究团队提出了Flow-GRPO算法,以解决多轮信用分配这一关键难题。该算法通过将轨迹最终结果的成功或失败信号广播至每一步,将复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。这种方法不仅缓解了奖励稀疏问题,还显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。

在基准测试中,AgentFlow展现了卓越的性能。以Qwen-2.5-7B-Instruct为基座模型的AgentFlow,在知识检索、智能体推理、数学推理和科学推理四大类共10个跨领域任务上,均超越了现有领先方法。具体来看,其在知识检索任务上的表现提升了14.9%,智能体推理任务提升了14.0%,数学推理任务提升了14.5%,科学推理任务提升了4.1%。值得注意的是,这些提升甚至超过了参数规模远大于其的专有模型,如GPT-4o。

实验还揭示了一些有趣的现象。例如,模型规模并非决定性能的唯一因素。使用70亿参数的AgentFlow在多个任务上超过了约2000亿参数的GPT-4o和4050亿参数的Llama-3.1,在搜索任务上领先8.2%,在智能体任务上领先15.8%。这表明,合理的系统设计和训练方法可能比单纯堆砌参数更有效。对比实验显示,若采用离线监督学习方式训练规划器,性能反而显著下降,平均降低19%。这进一步证明了智能体在真实交互环境中进行在线学习的必要性。

经过Flow-GRPO强化训练的规划器,还展现出了自主发现新解决路径的能力。系统学会了根据任务特点选择合适的工具组合,并自发探索出新的工具使用模式。例如,在信息检索任务中,系统会组合使用维基百科搜索和特定网页增强搜索,通过工具链获得更深入的信息挖掘。这种模式在未训练的推理流中几乎未曾出现。

对于不同难度的任务,AgentFlow也展现出了动态调整推理深度的能力。在多跳搜索和密集长链推理任务中,系统能够随着最大限制推理步数的上升稳步提升性能,同时不会盲目增加平均推理步数。这意味着,对于长难任务,系统会增加有效的推理步数来提升正确率,而对于简单任务,则不会浪费计算资源。

更多热门内容
谷歌携手AI稳健派Anthropic,千亿级合作重塑未来AI竞争新版图
两家公司于周四正式宣布达成一项价值数十亿美元的云计算协议,Anthropic将获得多达一百万个谷歌定制设计的张量处理单元(TPU),这将为其未来的人工智能计算能力提供强有力的支持。预计到2026年,Anthr…

2025-10-24

谷歌引入Gemini大模型串联地球AI模型,用户聊天即可获跨维度地理信息
10月23日消息,谷歌宣布对谷歌地球的人工智能功能进行重大扩展,核心升级在于引入Gemini大模型作为“连接器”,打通平台内多个独立的地球AI模型,让用户交互变得更便捷。 此前谷歌在7月已推出一批地球AI模型…

2025-10-24

华为与我校共绘蓝图:以“人工智能+教育”为翼 共育数字时代英才
他表示,学校将持续推进学科专业优化与新学科建设,在专业人才培养方面,支持学生向机器人、无人机等前沿领域发展,实现人才培养与华为技术、行业需求精准对接;在通识教育方面,系统开设AI通识课程、培育AI相关学科,加…

2025-10-24

宇树机器人“入职”网易《逆水寒》手游,科技与非遗共谱游戏新篇
实际上这回宇树机器人入职网易,主要是给《逆水寒》手游来当“动捕”! 除此之外,《逆水寒》手游也将成为,宇树科技机器人指定的游戏内虚拟应用合作方,之所以宇树科技要找网易,也是看中《逆水寒》手游内的庞大开放世界…

2025-10-24

AI赋能金融新篇章:百度智能云凭全栈实力领跑金融大模型市场
在这一快速成长的市场中,百度智能云凭借其在技术、生态与场景融合方面的综合能力,中标数量位居行业第一,成为推动金融智能化转型的重要力量。 其次,百度智能云还基于行业知识与场景融合推出多个面向金融等垂直场景的专精…

2025-10-24

10月24日人工智能大模型板块涨0.76%,汇纳科技领涨,资金流向有变化
证券之星消息,10月24日人工智能大模型板块较上一交易日上涨0.76%,汇纳科技领涨。当日上证指数报收于3950.31,上涨0.71%。深证成指报收于13289.18,上涨2.02%。人工智能大模型板块个股资…

2025-10-24