ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AlphaGo之父团队新突破:AI自主发现强化学习规则,性能超越人工设计

时间:2025-10-29 00:57:16来源:快讯编辑:快讯

强化学习作为人工智能领域的核心方向之一,近年来持续受到全球科研机构的关注。谷歌DeepMind团队在《自然》杂志发表的研究成果,为该领域开辟了全新路径——通过元学习机制,机器首次实现了自主设计强化学习算法,并在多个基准测试中超越人类专家设计的顶尖算法。

研究团队构建的元学习框架包含双重优化机制:智能体优化层负责调整策略网络参数,元优化层则通过元网络动态生成学习目标。这种设计突破了传统强化学习算法需要人工设计损失函数的局限,转而通过智能体在复杂环境中的交互经验,自动推导出最优学习规则。实验数据显示,在包含57个Atari游戏的基准测试中,新算法Disco57的归一化分数中位数达到13.86,显著优于MuZero等现有SOTA算法,同时计算效率提升40%以上。

研究的核心创新在于构建了可扩展的预测空间。智能体网络不仅输出传统策略π,还同时生成基于观测的向量预测y(s)和基于动作的向量预测z(s,a)。这种设计灵感源自强化学习中"预测"与"控制"的二元性——价值函数分为状态价值v(s)和动作价值q(s,a),奖励预测和后继特征等概念也存在类似的观测-动作二分结构。通过元网络处理智能体轨迹数据,系统能够自动发现传统算法中未定义的预测维度。

实验验证环节展现了算法的强大泛化能力。在未经训练的ProcGen程序生成游戏测试中,Disco57在16个不同风格的游戏中均取得最优表现,证明其能够适应全新的观测空间和奖励结构。更引人注目的是,在Crafter生存挑战中,算法展现出类似人类的学习能力,通过自主探索掌握了资源采集、工具制造等复杂技能。这些环境与训练阶段使用的Atari游戏在视觉风格、操作机制和奖励设计上存在显著差异,充分验证了算法的跨领域适应性。

技术实现层面,元网络采用LSTM架构处理智能体轨迹,输入包含连续n步的预测值、策略分布、即时奖励和终止信号。这种设计确保算法能够处理任意大小的离散动作空间,并通过权重共享机制实现动作维度的通用处理。实验表明,元网络定义的搜索空间完整保留了引导更新(bootstrapping)等核心算法思想,同时通过神经网络的表达能力,实现了比标量损失函数更精细的上下文感知更新。

进一步分析揭示了算法的独特机制。定性观察显示,新发现的预测维度在奖励获取和策略熵变化等关键事件前会出现显著波动,表明系统能够自主识别任务中的重要状态。信息论分析证实,这些预测包含传统价值函数未捕捉的未来奖励和策略不确定性信息。当人为阻断元网络的未来预测输入时,算法性能出现断崖式下降,验证了引导机制对当前目标计算的关键作用。

研究团队通过扩大训练环境规模持续优化算法性能。使用包含Atari、ProcGen和DMLab-30的103个环境训练的Disco103算法,在所有测试基准上均取得提升,特别是在Crafter环境中达到人类水平表现。这种随着环境复杂度增加而提升的性能特征,表明算法具备持续进化的潜力。效率分析显示,每个Atari游戏约6亿步的训练量即可产生最优规则,远低于传统算法开发所需的人工调试时间。

更多热门内容
乌镇峰会启幕在即:全球青年领军者共绘网络空间命运共同体新蓝图
来自吉尔吉斯斯坦的祖努诺娃·努里扎表示,年轻人在塑造网络空间共同未来中发挥着关键作用,他们通过推动创新、促进数字包容、倡导技术负责任使用等方式贡献力量。通过持续对话与创新合作,青年群体可以共同重塑互联网空间…

2025-10-29

XKCON祥控XKCON-MT-W-01无线测温杆:低功耗远传输,精准监测多场景温度
在工业生产与物资存储领域,堆垛、窖池等内部温度监测始终是保障安全与品质的核心环节。XKCON祥控无线测温探杆XKCON-MT-W-01,支持多种介质温度检测,具备防爆、低功耗、高精度等特点,适用于工业环境。…

2025-10-29

《网络安全运营体系解决方案:构建自适应闭环防护,赋能企业数字化转型》
这份《网络安全运营体系解决方案》是一份全面、系统且极具操作性的指导文件,其核心目标是构建一个技术、管理和流程有机融合的,具备实战化、体系化、常态化特点的网络安全运营体系,以有效支撑企业的数字化转型战略并应对日…

2025-10-29

STOVE平台下载全攻略:轻松突破海外服务器限制畅享游戏
这款由Smilegate运营的游戏服务门户,尽管带来了《权力之望》《第七史诗》《卡厄思梦境》等热门作品,但服务器设在国外常常导致网络响应迟缓、下载中断甚至失败,阻碍玩家顺畅体验。 设备配置未达游戏要求显卡驱动…

2025-10-29

小米澎湃OS3正式版来袭,多品类热门设备开启升级,你收到推送了吗?
2023年12月国内首批设备开始推送正式版,覆盖手机、汽车、智能家居等品类,国际版于2024年第一季度启动推送。2025年8月推出澎湃OS3 Beta版,重点优化系统流畅度与全生态协同,可穿戴设备适配计划于同…

2025-10-29

​霍涛领衔白山云科技GITEX 2025展AI与边缘云,助力企业AI应用落地​
在GITEX GLOBAL 2025展会,霍涛领导的白山云科技以“网络、安全、算力一体化”服务为核心,重磅展示其AI应用平台与边缘云技术成果,凭借全球分布式架构与技术创新,为企业AI落地提供全链路解决方案,引…

2025-10-29

联想极光外设三件套:灯光协同打造电竞氛围,多模连接解锁沉浸体验
这个体验不是单个设备能够带给你的,但是这里要注意,这个灯光设置只有在USB有线模式下才可以设置,并且不但可以设置同步的灯效,还可以单个设置,同时鼠标以及键盘的按键设置也可以在这个驱动里面进行更改,用起来非常…

2025-10-29

Nothing首款入门机Phone 3a Lite将至:透明设计延续,配置与价格能否打动用户?
从泄露出的命名可以看出,这款手机将是Nothing Phone 3a的精简版,虽然价格会略低,但采用类似的透明设计。 在网络方面,可以确定的是,这款机型虽然入门,但支持5G网络;屏幕方面则采用与Nothin…

2025-10-29

河南移动与华为共筑“豫智爱家示范区” 开启宽带业务智能体验新篇章
面对超2000万用户的多样化需求,近期,,依托AI WAN确定性网络方案及爱家大模型等技术,在质差优化、价值业务挖掘、体验保障及异常流量管控等方面取得显著突破,推动宽带业务向智能化、体验化运营迈进。集团近几年…

2025-10-29

双十一耳夹式耳机怎么选?从十好几款中摸清门道,帮你轻松挑到高性价比好物
市面上做耳夹耳机的品牌不少,但我更推荐大家选有经验的牌子,耳机这东西,音质调校、品控都得靠积累,像漫步者、声阔、虹觅这几个牌子,我都试过它们的产品,的确挺不错的。加上石墨烯振膜和虹觅声学实验室的调音,整体声…

2025-10-29