ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

UCSD与英特尔联手推出PettingLLMs框架,多智能体强化学习性能显著提升

时间:2025-11-09 20:51:35来源:快讯编辑:快讯

在人工智能领域,大语言模型(LLM)驱动的多智能体系统正展现出强大的潜力。然而,现有的训练框架主要聚焦于单智能体场景,多智能体间的协作优化——“群体强化”仍是一个亟待突破的领域。针对这一挑战,来自UCSD与英特尔的研究团队提出了一种全新的通用多智能体强化学习框架——PettingLLMs,为多智能体协同训练提供了创新解决方案。

多智能体系统在医疗、编程、科研、具身智能等领域的应用中,已展现出超越单智能体的显著优势。然而,当前主流的强化学习算法(如GRPO)均基于单智能体假设,其核心机制是通过同一输入(prompt)生成多组候选回答,并在组内进行相对优势评估。这一机制的有效性依赖于“共同prompt”的前提——即所有候选回答必须基于完全相同的上下文生成。但在多智能体多轮交互场景中,不同智能体在不同轮次接收到的prompt可能包含其他智能体的历史输出(如编程任务中,智能体生成的代码可能被其他智能体用于单元测试),导致“共同prompt”假设被破坏,进而影响优势计算的公平性与有效性。

为解决这一问题,研究团队提出了一种基于贪心搜索的树状采样方法。该方法通过每轮为每个智能体生成K个分支,并选择当前奖励最高的智能体进行下一轮分支,从而平衡探索与利用的矛盾。同时,每个智能体的奖励函数被设计为同时考虑自身角色专属奖励与全局任务奖励,确保智能体在提升协作能力的同时保持角色特异性。

针对多智能体训练中的策略选择问题(即何时采用“专属模型”模式,何时采用“共享模型”模式),研究团队构建了异步分发训练系统。该系统通过路由模块收集多智能体交互产生的轨迹数据,并根据训练模式需求进行差异化处理:在专属模型模式下,系统将智能体i的数据仅发送至模型资源池i的更新单元,实现独立模型进化;在共享模型模式下,系统将所有智能体的轨迹数据合并后发送至同一资源池,实现统一模型优化。

基于上述方法,研究团队开源了PettingLLMs框架,支持不同模型与智能体间的任意映射,并允许每个智能体适配不同的LoRA(低秩适应)参数。开发者仅需定义任务特定的智能体交互逻辑与奖励函数,即可快速构建多智能体训练环境。目前,框架已内置数学、编程、游戏等主流任务环境。

实验结果表明,该框架在复杂任务中表现突出。在推箱子(Sokoban)任务中,通过AT-GRPO算法训练的两个智能体将任务完成率从14%提升至96%;在路径规划任务中,完成率从47%提升至99.5%。代码生成任务中,LiveCodeBench、APPS、CodeContests的准确率分别提升6.1%、4.2%和7.0%;数学推理任务中,AIME 24与AIME 25的准确率分别提升9.0%和17.9%。

消融实验进一步验证了框架设计的合理性。仅在单智能体环境中训练规划或工具子角色时,指标虽从5.0%提升至11.0%/14.5%,但联合作业时准确率仅达16.0%;而互换已训练角色的策略会导致准确率骤降至6.0%,证明智能体能力具有互补性与不可替代性。训练过程中智能体学习回报同步上升,任务平均回合数持续下降,表明协作效率随训练进程显著提升。

更多热门内容
“5G+工业互联网”加速发展:我国迈向更高质量更广范围新征程
本文转自【央视网】; 央视网消息(新闻联播):记者从工业和信息化部获悉,截至目前,我国“5G+工业互联网”建设项目已超过2万个,正式步入规模化应用新阶段。当前我国具有一定影响力的工业互联网平台超过300家,重…

2025-11-24

OpenAI与Anthropic等联合推动:MCP Apps提案落地,AI交互开启图形化新篇
近日,MCP 社区正式提出了 MCP Apps 提案(SEP-1865),旨在填补这一关键拼图:规范对交互式用户界面(UI)的支持,使 MCP服务器能够直接向主机提供可视化的操作界面。 具体来说,MCP …

2025-11-24

数字安全新蓝图:六份报告勾勒技术防护与人才培育双路径
这些报告从量子计算、网络地图、AI安全到认知防护,全面覆盖了当今数字时代面临的关键安全问题,为构建更安全的网络世界提供了清晰路线图。 这六份报告就像一套完整的“数字安全手册”,从基础硬件到智能软件,从技术防护…

2025-11-24

谷歌AI生态圈中的中国力量:9家深度协同企业的技术突破与市场潜力
本文聚焦9家与谷歌AI生态深度关联的中国企业,分析其技术协同性与市场价值。市场数据:全球月活用户突破4.2亿,AI互动内容消费占比从2023年的18%增至2025年的37%。 风险提示:以上内容信息来源于…

2025-11-24

英特尔“Diamond Rapids”至强CPU测试信息流出:功耗或达650W 2026年有望发布
IT之家 11 月 24 日消息,科技媒体 Wccftech 昨日(11 月 23日)发布博文,报道称英特尔下一代至强(Xeon)处理器“Diamond Rapids”的测试平台信息曝光,参考评估平台代号为…

2025-11-24

黄仁勋官宣英伟达转型:25年发展成AI数据中心基础设施核心企业
【太平洋科技】11 月 24 日消息,在近日举行的 2026 财年第 3 季度财报会议上,英伟达 CEO 黄仁勋表示,公司历经 25年发展,已从游戏 GPU 厂商逐步发展成如今的 AI 数据中心基础设施…

2025-11-24