南京大学周志华教授的研究团队近期取得了一项突破性进展,他们证实了大语言模型内部存在着一种可挖掘的内源性奖励机制,这一发现为强化学习的应用开辟了全新路径。
在以往,强化学习模型,尤其是依赖于人类反馈的强化学习(RLHF),往往需要庞大的高质量人类偏好数据集来训练奖励模型。然而,这种数据集的构建不仅费时费力,而且成本高昂,限制了强化学习的广泛应用。面对这一挑战,研究者们开始探索新的解决方案,其中基于AI反馈的强化学习(RLAIF)逐渐崭露头角。
周志华教授团队的研究揭示了一个令人惊喜的现象:在常规的下一个Token预测训练中,强大的通用奖励模型其实已经隐含在每一个大语言模型之中。他们提出的“内源性奖励”概念,意味着无需外部评估,即可从模型内部提取出有效的奖励机制。这一理论创新不仅为奖励模型的构建提供了新的视角,还展示了如何利用这一内源性奖励对模型进行微调,从而显著提升其性能。
实验结果显示,采用内源性奖励进行微调的模型,在误差范围内超越了传统基线模型,特别是在处理复杂任务时,表现尤为突出。团队进行了广泛的验证实验,均证明这一新方法在各类测试中均优于现有的奖励模型。
这一研究成果的发布,无疑为大语言模型的未来开发和应用注入了新的活力。研究人员相信,通过利用模型内部的内源性奖励机制,有望降低开发成本,提高模型训练效率,进一步推动人工智能技术的广泛应用和发展。