华人团队突破Token限制，扩散模型学习潜力超自回归三倍-人工智能-ITBear科技资讯

AI界近期迎来了一项由华人科研团队带来的突破性进展，他们探索了扩散语言模型在Token数量受限条件下的表现，发现其数据学习能力远超自回归模型，展现出了三倍的优势。这一发现无疑为语言模型的训练策略开辟了全新的视角。

这项研究的核心成果是一个拥有10亿参数的扩散模型，在仅使用10亿Token进行480轮训练后，它在HellaSwag和MMLU两项基准测试中分别取得了56%和33%的准确率。值得注意的是，这一过程中并未采用任何特殊技巧或数据筛选方法。更令人瞩目的是，即便在数据高度重复的训练环境中，该模型的表现也未出现饱和迹象，这显示了其从同一数据源中提取更多有价值信息的非凡能力。

深入剖析后，研究人员指出扩散语言模型之所以拥有如此强大的学习能力，主要得益于两大因素。一方面，扩散模型通过引入双向建模和扩散目标，打破了传统自回归模型在处理数据时面临的因果局限，从而能够更深入地挖掘数据中的信息。另一方面，扩散模型在计算密度上的优势显著，它在训练和推理阶段投入更多计算资源，通过多次迭代数据优化预测，进而提升了整体性能。

尽管扩散模型在数据重复利用方面表现出一定的稳定性，但研究团队也观察到，随着训练周期的增加，模型存在过拟合的风险。然而，一个令人意外的发现是，即便在过拟合的情况下，模型在后续任务中的表现并未立即下滑，有时甚至会有所提升。这背后的原因在于，验证损失的变化与下游任务准确率之间并非总是线性相关，模型在处理有限训练数据时，可能会对某些文本片段产生过度自信的现象。

此次研究成果不仅为AI模型的训练策略提供了新的灵感，特别是在Token数量受限的情境下，扩散语言模型的应用潜力巨大。接下来，研究团队计划进一步扩大模型规模，并引入更多样化的数据，以期进一步验证并拓展这些令人振奋的发现。