ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepMind新突破:AI智能体自主发现RL算法,性能超主流算法

时间:2025-10-28 15:22:45来源:快讯编辑:快讯

当人工智能(AI)开始具备自主“进化”能力,人类在技术发展中的角色或将被重新定义。近日,Google DeepMind团队在权威科学期刊《自然》上发表了一项突破性研究,提出了一种名为DiscoRL的全新方法,使智能体(Agent)能够在多环境交互中自主发现强化学习(RL)规则,无需依赖人类设计的算法。实验表明,该方法在Atari游戏基准测试中超越了MuZero等主流RL算法,并在未见过的环境中展现出高效稳定的性能。

强化学习是AI实现自主决策的核心技术之一,但长期以来,如何让智能体自主开发高效的RL算法一直是研究难点。传统方法依赖人类专家设计算法,不仅耗时费力,且难以适应复杂多变的环境。DeepMind团队提出的DiscoRL通过多代智能体在不同环境中的交互经验,实现了RL规则的自主发现。其核心在于结合智能体优化与元优化:智能体通过更新策略和预测优化自身参数,元网络则通过调整学习规则的目标,最大化智能体的累积奖励。

具体而言,智能体的训练过程涉及两类优化:在智能体优化阶段,研究团队采用Kullback–Leibler散度衡量策略与预测的差距,确保训练稳定性。智能体会输出策略(π)、观测预测(y)、动作预测(z)等结果,元网络为其生成学习目标,智能体据此更新自身参数。同时,模型引入辅助损失函数,优化动作价值与策略预测,提升学习效率。在元优化阶段,多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度,调整自身参数以最大化累积回报。智能体参数定期重置,使学习规则能在有限时间内快速提升性能。

为验证DiscoRL的有效性,研究团队以四分位数平均值(IQM)作为综合性能指标,在Atari基准测试中进行了评估。基于57款Atari游戏训练的Disco57规则,在相同游戏中的IQM得分达13.86,超越了MuZero、Dreamer等现有算法,且在实际运行效率上显著优于MuZero。进一步测试显示,Disco57在16个ProcGen二维游戏、Crafter基准测试中均表现出色,并在NetHack NeurIPS 2021挑战赛中获得第三名,且未使用任何领域特定知识。

研究还发现,环境复杂性与多样性对RL规则的泛化能力具有关键影响。基于Atari、ProcGen和DMLab-30三个基准(共103个环境)发现的Disco103规则,在Crafter基准上达到人类水平表现,并在Sokoban任务中接近MuZero的最先进性能。这表明,参与训练的环境越复杂多样,所发现的RL规则越强大,即使面对未见过的环境也能保持高效。

在效率与稳定性方面,DiscoRL同样表现突出。最优版本的Disco57规则在每个Atari游戏约6亿步内被发现,相当于在57个游戏中进行3轮实验,远低于传统人工设计算法所需的实验次数和人力投入。随着训练环境数量增加,DiscoRL在未见过的ProcGen基准上的性能持续提升,显示出强大的扩展性。

DeepMind团队指出,未来高级AI的RL算法设计可能由机器主导,通过高效扩展数据与计算能力实现自动化,无需人类干预。这一突破虽为学术领域带来新潜力,但也引发了对技术社会影响的担忧——当前社会尚未完全准备好应对此类技术的广泛应用。

更多热门内容
2025年精选两款上网行为监控软件,助力企业构建高效安全办公网络
然而,员工在工作时间内浏览无关网页、沉迷社交娱乐、私自外传文件、滥用即时通讯工具等行为,不仅影响工作效率,更可能带来数据泄露、病毒感染、合规违规等重大风险。 管理者可查看某员工在一周内使用微信、抖音、Ste…

2025-10-28

106短信群发是否正规安全?一文带您全面了解其特性与选择要点
号码可溯:每一个106开头的号码都有其归属的发送主体,一旦出现问题,可以迅速追溯到发送企业,确保了责任的明确性。虽然通道是正规的,但市场上的服务商鱼龙混杂,安全性的核心就落在了您所选择的短信群发平台上。 …

2025-10-28

分布式图数据库创新融合:赋能投资领域TB级数据毫秒响应与精准决策
分布式图数据库的融合创新,通过将节点与边的图结构模型与分布式计算架构深度结合,实现了对TB级金融数据的毫秒级查询响应,为投资决策提供了更实时、更精准的底层支撑。在投资领域,企业间的股权控制、担保链、供应链等关…

2025-10-28

华为WIKO X70官宣10月30日开售:鸿蒙系统+北斗卫星,轻薄大电池或成亮点
这种组合在华为生态中并不常见,可能在一定程度上影响系统性能的充分发挥,但据推测,其在AI功能方面的表现仍值得期待。 在功能配置上,WIKO X70还加入了侧边指纹识别、红外遥控、北斗卫星通话以及素皮材质后盖等…

2025-10-28

多设备同步:解锁手机、电脑、平板间高效协作与数据实时流转新体验
这可以通过选择支持多设备的云存储服务来实现,它们能够在您保存或修改文件时,自动将更改应用到所有设备上。最后,利用文件夹和标签等组织工具,将相关数据归类,这样您可以快速找到所需信息,并减少寻找时间,从而提升整体…

2025-10-28

捷米特JM-CCLKIE-TCP网关:破解数据孤岛,赋能水务智慧化升级
智能接入枢纽:作为智能网关,它通常还支持多主站连接和多种从站协议(如ModbusRTU/TCP),使得在保留现有PLC网络的同时,能够便捷地接入新增的第三方设备,成为一个局域的物联网网关接入枢纽。 上…

2025-10-28

生鲜配送管理新利器:物联网监控软件如何赋能物流效率与安全双提升
如何通过温湿度监测提升生鲜物流效率在生鲜配送管理中,温湿度监测是确保产品质量的关键因素之一。借助物联网监控软件,企业可以实时收集和分析物流过程中的温湿度数据,以便及时调整运输条件。生鲜配送管理系统应具备温湿…

2025-10-28

华为Mate 70 Air或10月29日预热!轻薄设计+鸿蒙系统,11月有望开售
此前,这款新机已现身中国电信终端产品库,型号为SUP-AL90,标志着华为首次在Mate系列中推出“Air”后缀机型,主打轻薄设计。价格方面,另有数码博透露,华为Mate 70 Air的起售价预计在3000…

2025-10-28

高通推出AI200与A250数据中心芯片,以创新架构引领生成式AI推理新变革
具体来说,Qualcomm AI200 是一款专用机架级 AI 推理解决方案,旨在为大型语言和多模态模型 (LLM、LMM) 推理及其他 AI工作负载提供低总拥有成本 (TCO) 和优化的性能。 Qual…

2025-10-28

超雪团队发力:eSIM小程序上线,让有锁机等也能原生支持eSIM
IT之家 10 月 28 日消息,超雪团队发文,称目前其 eSIM 小程序“bleuicc”已正式上线,目标是“让所有手机都支持原生eSIM,包括有锁机”。参考小程序页面,其中显示该团队使用蓝牙写入 / 启…

2025-10-28