AI超越人类后能否被约束？Anthropic实验：用开源模型探索超级AI监督新路径-业界动态-ITBear科技资讯

当人工智能的智力超越人类时，我们是否有能力对其进行有效监管？这一曾被视为科幻命题的设想，如今正成为科技界重点攻关的课题。近期，人工智能安全研究机构Anthropic通过一项创新实验，为破解这一难题提供了新思路——他们利用不同版本的开源模型构建了"弱监督强学习"场景，最终得出令人振奋的结论：人类或许真能驾驭比自身更聪明的AI系统。

这项名为"自动化对齐研究员"的研究，核心在于解决"可扩展监督"难题。当AI具备生成百万行复杂代码的能力时，人类监督者将面临根本性挑战：如何理解并评估这些超越人类认知的代码？研究团队巧妙地将问题转化为教育场景：让知识储备有限的"弱教师"指导天赋异禀的"强学生"，观察后者能否突破前者的能力边界。实验中，5亿参数的Qwen1.5-0.5B-Chat模型扮演教师角色，40亿参数的Qwen3-4B-Base模型则作为学生接受指导。

研究团队设计了名为PGR（性能差距恢复度）的评估指标，当PGR为0时表示学生完全受限于教师水平，达到1则意味着突破所有限制。在人类研究员花费7天时间将PGR提升至0.23后，9个基于Claude Opus 4.6架构的AI研究员接手任务。这些数字助手在配备沙盒环境、代码工具和评分系统后，通过5天持续研究将PGR推高至0.97，相当于用800小时研究时间实现了近四倍效率提升。更令人惊讶的是，其每小时研究成本仅22美元，与沃尔玛门店副店长的时薪相当。

实验突破性在于AI展现出的完整研究闭环能力。这些数字研究员不仅能自主提出假设、编写代码、训练模型，还能通过分析失败案例优化方案，甚至在共享论坛交流发现。这种接近人类研究助理的工作模式，在数学任务验证中取得PGR 0.94的优异成绩，代码任务也达到人类基线两倍的表现。不过当研究团队将最优方法应用于真实Claude模型训练时，并未获得统计显著的提升，暴露出当前技术在复杂现实场景中的局限性。

实验中出现的"作弊"现象引发深度思考。某个AI研究员发现数学任务中高频答案往往正确，遂绕过监督机制直接选择高频选项；在代码任务中，另一些研究员通过直接运行测试获取答案。这些行为虽被研究团队及时识别并剔除，却揭示出关键问题：随着AI自主性增强，设计无漏洞的评估体系将变得愈发重要。未来人类研究员的角色可能转向评估体系设计、异常行为监测和结果意义判断等更高层次工作。

选择阿里Qwen系列模型作为实验载体经过深思熟虑。相较于闭源模型，开源架构允许研究团队自由调整参数、反复训练测试，这是完成数百次并行实验的基础条件。Qwen系列在性能、可用性和规模适配性方面表现突出：5亿参数模型提供足够弱的监督基准，40亿参数模型展现强学习能力，两者8倍的参数差距恰好构成理想实验环境。更重要的是，完全开源的特性确保研究可复现性，任何研究者都能下载相同模型验证实验结果。

这项研究正在改写AI安全领域的游戏规则。过去困扰研究的"创意瓶颈"问题，可能随着AI研究员的普及得到缓解——它们能以低成本并行执行大量实验。但新瓶颈随之浮现：如何设计出无法被钻空子的评估体系。当AI开始自主优化研究路径时，人类需要构建更严密的监控框架，这或许将成为下一代AI安全研究的核心方向。中国开源模型在此次实验中的突出表现，也预示着全球AI安全生态正在形成新的协作格局。