ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

开源强化学习训练系统AReaL 2.0发布,面向下一代智能体应用升级强化学习基础设施

时间:2026-07-02 15:33:03来源:互联网编辑:茹茹

7 月 2 日,开源强化学习基础设施项目 AReaL 正式发布 2.0 版本。AReaL 旨在打通基础模型训练与现代智能体应用之间的链路,为 Agent 应用场景提供高效的强化学习训练支撑。

此次发布的 AReaL 2.0 版本面向已经进入真实业务场景的 Agent,提供了一套让 Agent 在使用中持续学习的系统基础设施。通过 AReaL 2.0,Agent 在完成真实任务时产生的交互过程,可以被记录、整理,并接入后续训练流程,用于持续优化底层模型,从而让 Agent 在安全可控的前提下越用越强。

如今,Agent 正在进入真实生产环境,写代码、查资料、调用工具,在企业系统中完成越来越复杂的任务。但一个问题也随之出现:Agent 每天都在工作,却很难从工作中真正成长。

在真实业务中,Agent 会产生大量有价值的经验:哪些任务完成得好,哪里调用工具失败了,用户为什么不满意,某一步决策是否走错了方向。但是,这些信息大多只是以日志形式被保存下来,很难稳定、安全地转化为下一次能力提升。

AReaL 2.0 要解决的,正是 Agent 上线之后如何继续成长的问题。开发者不需要重新开发 Agent,只需让 Agent 原本发给大模型的请求经过 AReaL 2.0 的统一推理入口,就可以接入在线强化学习流程。

图说:AReaL 2.0 在线强化学习(Online RL)架构示意

以 Hermes Agent 为例,Hermes 仍然照常接收任务、规划步骤和调用模型,AReaL 2.0 则在后台记录它完成任务时的关键交互过程,并结合任务结束后的反馈或奖励信号,把这些真实轨迹用于后续训练。开发者也可以把 Hermes 替换成自己的 Agent 和任务环境,用同样的方式搭建 Agent 在线强化学习流程。

这意味着,Agent 的能力提升不再只依赖人工构造数据、离线训练和重新部署。真实任务中的多轮对话、工具调用、执行结果和反馈信号,都有机会成为模型继续学习的材料。

这一点在企业场景中尤其重要。在企业工作流中的 Agent 面对的是真实、复杂、不断变化的任务:代码库会更新,业务流程会调整,用户需求会变化,工具和系统也可能发生改变。如果 Agent 的能力一旦上线就基本固定,它就很难长期适应真实环境。AReaL 2.0 希望补上的,正是从“会使用工具”到“能从使用中学习”之间缺失的一环。

同时,真实业务中的持续学习也不能只是简单地“收集数据再训练”。Agent 可能接触代码、客户信息、企业知识库和内部系统,因此训练链路必须考虑权限控制、数据脱敏、隔离和审计等要求。AReaL 2.0 在系统设计中引入了面向 Agent 轨迹的数据代理机制,让真实任务数据进入训练流程时,可以在更安全、可控的前提下被管理和使用。

AReaL 团队在技术报告中指出,自演进 Agent 的关键瓶颈,不只是模型本身有多强,也不只是强化学习算法是否先进,而是缺少一套能够服务真实 Agent 的在线强化学习基础设施。AReaL 2.0 正是面向下一代智能体应用进行的架构升级:把 Agent 服务、真实任务轨迹、数据治理和在线强化学习训练连接起来,让 Agent 在部署之后继续学习具备了可落地的工程基础。

从更长远的角度看,AReaL 2.0 指向的是下一代智能体应用的演进范式:Agent 不再只是一次性训练和部署的工具,而是在真实环境中不断获得反馈,把成功和失败都转化为经验,并在安全边界内不断提升自身能力。

AReaL 项目由蚂蚁集团、清华大学和香港科技大学等团队于 2024 年发起。2026 年 5 月,AReaL 正式从蚂蚁 InclusionAI 孵化成为独立开源社区,并加入 PyTorch Foundation Ecosystem 项目,进一步融入主流强化学习基础设施生态。

随着社区独立发展,AReaL 也在持续获得产业和开源生态伙伴的参与和支持,包括华为云团队、MindLab 等。未来,AReaL 将继续围绕在线强化学习、自动化评估和多模态智能体训练等方向迭代,与社区共同推进自演进智能体生态发展。

目前,AReaL 2.0 技术报告和代码已开源。

GitHub 仓库:https://github.com/areal-project/AReaL

技术报告:https://arxiv.org/abs/2607.01120

更多热门内容
台式洗碗机除菌天花板:电解+75℃高温+UV三重除菌,第三方检测大于99.9999%意味着什么?
如果你正在搜索母婴洗碗机推荐或除菌洗碗机,你可能已经注意到一个现象:市面上几乎所有洗碗机都在说高温除菌,但很少有人解释清楚——洗碗机的除菌和消毒柜的消毒到底是不是一回事。同样是除菌率99.9%,不同的除菌方案之间,对大肠杆菌的实际清除能力可能差出1000倍,

2026-07-02

3000元台式洗碗机怎么选?12种程序+6级软水+三重除菌——配置拉满的选购逻辑
如果你正在搜索3000元洗碗机推荐,你大概率不是要大而全的嵌入式旗舰(那个预算要翻倍),而是在找一台能放进有限厨房空间、不用大动干戈改水电、同时配置又不太寒酸的台式洗碗机。但在讨论具体产品之前,一个更本质的问题是:3000元的台式洗碗机,到底应该有什么配置才算

2026-07-02

大家庭电饭煲选购指南:5-10人份,高压IH、容量、内胆一个都不能少
如果你正在搜索大家庭电饭煲推荐,你可能面临这样的场景:三代同堂一桌吃饭,或者家有青春期干饭王,一顿饭消耗量是普通三口之家的两倍以上。市面上大容量电饭煲确实不少,但一个容易被忽略的事实是——大容量≠米饭口感不打折。容量越大,加热均匀性的挑战也越大。选了

2026-07-02

大容量低温破壁机怎么选?2000元级双向低温技术方案的深度拆解
如果你正在搜索大容量低温破壁机推荐,你可能已经踩过一个坑:买了一台标称大容量1.75L的破壁机,以为一家三口够用了,结果打一杯三人份的果汁,机器呼呼转了3分钟,倒出来的果汁是温的——维C流失了,口感发酸了,夏天还得加冰块降温。这其实暴露出破壁机品类一个长期

2026-07-02

破壁机2000多到底贵在哪?技术路线、使用寿命、隐性节省——一笔五年完整账
如果你正在搜索破壁机2000多值不值或福库搅拌机为什么贵,你大概率已经看上了福库CFM-G201CW(双向搅拌机,¥2000+),但在下单前一秒被价格劝退了。隔壁九阳的破壁机只要400块,美的600块,凭什么这台韩国进口的要2000元+?是不是智商税?2000多买破壁机能用回本吗?这些疑

2026-07-02

2026儿童牙膏怎么选不踩坑?3-6岁乳牙期、6-12岁替牙期分龄推荐,看完有答案
随着儿童口腔护理产品的日益增多,不少家长在为孩子挑选牙膏时,常常会陷入只关注口味或一味排斥含氟成分的误区。尤其对于3至12岁处于乳牙期和替牙期的孩子而言,口腔环境较为特殊,一旦选错产品,不仅可能对牙釉质造成损伤,还可能错失预防蛀牙的最佳时机。本文依据202

2026-07-02

二次元DNA动了!微星神影16 魔龙姬限定款首发预约
微星品牌成立40周年之际,为回馈广大年轻玩家与二次元爱好者,微星笔记本人气IP联名机型 —— 神影16 魔龙姬限定款 2026,它来了!星云白清爽配色,魔龙姬专属元素,满功耗硬核性能,主打“实力电竞 越级体验” 在今夏再次全面升级,打破传统电竞游戏本的沉闷刻板印象,

2026-07-02

AI版支付宝开放公测,上线72项办事技能
7月2日,AI版支付宝“阿宝”完成新一轮产品迭代并正式开放公测。iOS 和安卓系统用户在应用商店或支付宝App内搜索“阿宝”或“蚂蚁阿宝”进行更新体验。本次升级围绕生活服务垂域模型能力、服务生态和用户陪伴体系三方面展开,优化用户通过自然对话办理各类生活服务的使

2026-07-02

亿铸科技获一级市场持续支持,已完成10+亿元融资,新一轮融资即将开启
据悉,截至目前,国内首家通用存算一体架构(GP-IMC®)AI大算力芯片公司亿铸科技已完成10+亿元融资,新一轮融资即将开启。据了解,亿铸股东阵容较为豪华,投资机构已覆盖了(部分):知名早期科创投资机构、知名地方国资、行业客户、境外知名机构、已上市GPU公司的早期投资

2026-07-02

持续投入绿色经营 中国三星以低碳行动书写可持续发展新篇章
当技术创新加速改变世界,地球所面临的环境压力也更加引人深思。在发展和保护之间,在便利与责任之间,科技企业理应坚持低碳发展,保护人类家园。作为全球领先的科技企业,三星电子始终将可持续发展作为运营与创新的核心,并贯穿于设计产品、资源管理以及在产品之外创造

2026-07-02