ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepMind新突破:AI智能体自主发现RL算法,性能超越人工设计

时间:2025-10-28 01:53:10来源:互联网编辑:快讯

人工智能领域长期追求的目标之一,是构建能够在复杂动态环境中自主决策、实现目标的智能体。强化学习作为实现这一目标的核心技术,虽历经数十年研究,但让智能体自主设计高效强化学习算法的难题始终未解。近日,Google DeepMind团队提出突破性方案,通过多代智能体在不同环境中的交互经验,实现强化学习规则的自主发现。

研究团队开发的DiscoRL系统在多项基准测试中展现惊人实力。在经典的Atari游戏测试中,该系统训练出的Disco57规则以13.86的四分位数平均值(IQM)超越MuZero、Dreamer等主流算法,且在运算效率上显著优于同类技术。更值得关注的是,该规则在未接触过的ProcGen二维游戏、Crafter生存挑战及NetHack迷宫探索等测试中,均展现出超越人工设计算法的泛化能力。

这项突破的核心在于双重优化机制。智能体优化层面,系统采用Kullback-Leibler散度确保训练稳定性,通过元网络生成的策略、观测预测和动作预测目标,引导智能体持续改进决策模型。元优化层面,多个智能体在不同环境中并行学习,元网络根据整体表现计算元梯度,动态调整学习规则。这种设计使算法能在有限训练步数内快速收敛,同时保持对未知环境的适应能力。

实验数据显示,算法性能与环境复杂度呈正相关。基于103个环境训练的Disco103规则,不仅在Atari测试中保持竞争力,更在Crafter生存挑战中达到人类水平表现,在推箱子任务中接近MuZero的顶尖性能。研究团队特别指出,随着训练环境数量从57个增至103个,算法在全新测试场景中的表现提升达37%,证明数据多样性对算法泛化能力的关键作用。

在效率维度,DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练(相当于57个游戏3轮实验),即可发现高性能规则。相比之下,传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加,系统在未知测试场景中的表现呈指数级增长。

技术细节方面,智能体结构包含策略输出、多模态预测和价值评估模块,元网络则通过反向传播与优势行动者-评论家算法实现参数优化。特别设计的辅助损失函数,有效平衡了探索与利用的矛盾,使学习过程既稳定又高效。在NetHack挑战赛中,未使用任何领域知识的Disco57仍取得第三名,验证了算法的普适性。

这项发表于《自然》杂志的研究引发学术界广泛关注。专家指出,该成果标志着强化学习从人工设计向自动发现的范式转变,未来高级AI系统的核心算法可能完全由机器自主生成。不过,技术突破带来的伦理与社会影响同样值得深思——当算法设计权从人类转移至机器,现有监管框架和技术治理体系面临全新挑战。

更多热门内容
Anthropic:亚马逊80亿押注后,谷歌携400亿算力大单“强势入局”
换言之,我们常说的AI,强调的是其人造性,工具性,在此意义上,AI和一把锤子、一台电脑没区别,而达里奥·阿莫迪则认为,基于神经网络技术的AI,其发展接近于生命的演化。 根据最新消息,上周四,Anthropi…

2025-10-28

Take-Two CEO泽尔尼克:AI效率提升有潜力,但爆款游戏仍需人类创造力
他进一步阐述了今年早些时候一次采访中表达过的观点:“从定义上讲,数据集是什么?“人工智能是一件好事,对每个行业都有益处,”泽尔尼克表示,“但它能复制或创造天才吗?它不过是一堆数据、一堆算力,再加上一个语言模型…

2025-10-28

谷歌Gemini Canvas推出PPT自动生成功能,学生职场人士演示文稿制作更便捷
10月27日消息,谷歌为旗下AI聊天应用Gemini中的交互式工作区Canvas推出全新功能,瞄准学生与职场人群的演示文稿制作需求。 此次更新后,用户只需输入文字指令,Gemini即可自动生成包含主题风格与配…

2025-10-28

​新浪新闻·2025探索大会启幕在即 智谱吴玮杰将共话AI前沿与产业新局​
来源:大浪智库 据了解,本届大会由微博、新浪新闻联合主办,清华大学经管学院EMBA倾力支持。大会将邀请科学家、企业家及人工智能领域的顶尖探索者,通过主题演讲、跨界对话、探索对话等形式,搭建跨界融合、开放多元的…

2025-10-28