DeepMind新突破：AI智能体自主发现RL算法，性能超越人工设计-人工智能-ITBear科技资讯

人工智能领域长期追求的目标之一，是构建能够在复杂动态环境中自主决策、实现目标的智能体。强化学习作为实现这一目标的核心技术，虽历经数十年研究，但让智能体自主设计高效强化学习算法的难题始终未解。近日，Google DeepMind团队提出突破性方案，通过多代智能体在不同环境中的交互经验，实现强化学习规则的自主发现。

研究团队开发的DiscoRL系统在多项基准测试中展现惊人实力。在经典的Atari游戏测试中，该系统训练出的Disco57规则以13.86的四分位数平均值（IQM）超越MuZero、Dreamer等主流算法，且在运算效率上显著优于同类技术。更值得关注的是，该规则在未接触过的ProcGen二维游戏、Crafter生存挑战及NetHack迷宫探索等测试中，均展现出超越人工设计算法的泛化能力。

这项突破的核心在于双重优化机制。智能体优化层面，系统采用Kullback-Leibler散度确保训练稳定性，通过元网络生成的策略、观测预测和动作预测目标，引导智能体持续改进决策模型。元优化层面，多个智能体在不同环境中并行学习，元网络根据整体表现计算元梯度，动态调整学习规则。这种设计使算法能在有限训练步数内快速收敛，同时保持对未知环境的适应能力。

实验数据显示，算法性能与环境复杂度呈正相关。基于103个环境训练的Disco103规则，不仅在Atari测试中保持竞争力，更在Crafter生存挑战中达到人类水平表现，在推箱子任务中接近MuZero的顶尖性能。研究团队特别指出，随着训练环境数量从57个增至103个，算法在全新测试场景中的表现提升达37%，证明数据多样性对算法泛化能力的关键作用。

在效率维度，DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练（相当于57个游戏3轮实验），即可发现高性能规则。相比之下，传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加，系统在未知测试场景中的表现呈指数级增长。

技术细节方面，智能体结构包含策略输出、多模态预测和价值评估模块，元网络则通过反向传播与优势行动者-评论家算法实现参数优化。特别设计的辅助损失函数，有效平衡了探索与利用的矛盾，使学习过程既稳定又高效。在NetHack挑战赛中，未使用任何领域知识的Disco57仍取得第三名，验证了算法的普适性。

这项发表于《自然》杂志的研究引发学术界广泛关注。专家指出，该成果标志着强化学习从人工设计向自动发现的范式转变，未来高级AI系统的核心算法可能完全由机器自主生成。不过，技术突破带来的伦理与社会影响同样值得深思——当算法设计权从人类转移至机器，现有监管框架和技术治理体系面临全新挑战。

手机圈AI激战正酣：端侧多模态崛起，生态构建初露锋芒

2025-10-28

MiniMax全新大模型M2发布，以低价与多模态优势开启AI全栈融合新征程

2025-10-28

豆包视频生成模型1.0 Pro Fast上线，实现速度成本效果三重平衡，赋能内容生产

2025-10-28

Groq首席执行官：沙特能源丰富成本低，或成AI数据中心理想之选

2025-10-28

高盛CEO所罗门：AI赋能银行家，效率提升促业务拓展与人才需求增长

2025-10-28

Anthropic：亚马逊80亿押注后，谷歌携400亿算力大单“强势入局”

换言之，我们常说的AI，强调的是其人造性，工具性，在此意义上，AI和一把锤子、一台电脑没区别，而达里奥·阿莫迪则认为，基于神经网络技术的AI，其发展接近于生命的演化。根据最新消息，上周四，Anthropi…

2025-10-28

Take-Two CEO泽尔尼克：AI效率提升有潜力，但爆款游戏仍需人类创造力

他进一步阐述了今年早些时候一次采访中表达过的观点：“从定义上讲，数据集是什么？“人工智能是一件好事，对每个行业都有益处，”泽尔尼克表示，“但它能复制或创造天才吗？它不过是一堆数据、一堆算力，再加上一个语言模型…

2025-10-28

谷歌Gemini Canvas推出PPT自动生成功能，学生职场人士演示文稿制作更便捷

10月27日消息，谷歌为旗下AI聊天应用Gemini中的交互式工作区Canvas推出全新功能，瞄准学生与职场人群的演示文稿制作需求。此次更新后，用户只需输入文字指令，Gemini即可自动生成包含主题风格与配…

2025-10-28

AI赋能中企出海3.0时代：垂直智能体破局，开启全球营销新篇章

2025-10-28

新浪新闻·2025探索大会启幕在即智谱吴玮杰将共话AI前沿与产业新局

来源：大浪智库据了解，本届大会由微博、新浪新闻联合主办，清华大学经管学院EMBA倾力支持。大会将邀请科学家、企业家及人工智能领域的顶尖探索者，通过主题演讲、跨界对话、探索对话等形式，搭建跨界融合、开放多元的…

2025-10-28