AI界近期迎来了一项由华人科研团队带来的突破性进展,他们探索了扩散语言模型在Token数量受限条件下的表现,发现其数据学习能力远超自回归模型,展现出了三倍的优势。这一发现无疑为语言模型的训练策略开辟了全新的视角。
这项研究的核心成果是一个拥有10亿参数的扩散模型,在仅使用10亿Token进行480轮训练后,它在HellaSwag和MMLU两项基准测试中分别取得了56%和33%的准确率。值得注意的是,这一过程中并未采用任何特殊技巧或数据筛选方法。更令人瞩目的是,即便在数据高度重复的训练环境中,该模型的表现也未出现饱和迹象,这显示了其从同一数据源中提取更多有价值信息的非凡能力。
深入剖析后,研究人员指出扩散语言模型之所以拥有如此强大的学习能力,主要得益于两大因素。一方面,扩散模型通过引入双向建模和扩散目标,打破了传统自回归模型在处理数据时面临的因果局限,从而能够更深入地挖掘数据中的信息。另一方面,扩散模型在计算密度上的优势显著,它在训练和推理阶段投入更多计算资源,通过多次迭代数据优化预测,进而提升了整体性能。
尽管扩散模型在数据重复利用方面表现出一定的稳定性,但研究团队也观察到,随着训练周期的增加,模型存在过拟合的风险。然而,一个令人意外的发现是,即便在过拟合的情况下,模型在后续任务中的表现并未立即下滑,有时甚至会有所提升。这背后的原因在于,验证损失的变化与下游任务准确率之间并非总是线性相关,模型在处理有限训练数据时,可能会对某些文本片段产生过度自信的现象。
此次研究成果不仅为AI模型的训练策略提供了新的灵感,特别是在Token数量受限的情境下,扩散语言模型的应用潜力巨大。接下来,研究团队计划进一步扩大模型规模,并引入更多样化的数据,以期进一步验证并拓展这些令人振奋的发现。