ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

华人团队突破Token限制,扩散模型学习潜力超自回归三倍

时间:2025-08-13 21:30:27来源:ITBEAR编辑:快讯团队

AI界近期迎来了一项由华人科研团队带来的突破性进展,他们探索了扩散语言模型在Token数量受限条件下的表现,发现其数据学习能力远超自回归模型,展现出了三倍的优势。这一发现无疑为语言模型的训练策略开辟了全新的视角。

这项研究的核心成果是一个拥有10亿参数的扩散模型,在仅使用10亿Token进行480轮训练后,它在HellaSwag和MMLU两项基准测试中分别取得了56%和33%的准确率。值得注意的是,这一过程中并未采用任何特殊技巧或数据筛选方法。更令人瞩目的是,即便在数据高度重复的训练环境中,该模型的表现也未出现饱和迹象,这显示了其从同一数据源中提取更多有价值信息的非凡能力。

深入剖析后,研究人员指出扩散语言模型之所以拥有如此强大的学习能力,主要得益于两大因素。一方面,扩散模型通过引入双向建模和扩散目标,打破了传统自回归模型在处理数据时面临的因果局限,从而能够更深入地挖掘数据中的信息。另一方面,扩散模型在计算密度上的优势显著,它在训练和推理阶段投入更多计算资源,通过多次迭代数据优化预测,进而提升了整体性能。

尽管扩散模型在数据重复利用方面表现出一定的稳定性,但研究团队也观察到,随着训练周期的增加,模型存在过拟合的风险。然而,一个令人意外的发现是,即便在过拟合的情况下,模型在后续任务中的表现并未立即下滑,有时甚至会有所提升。这背后的原因在于,验证损失的变化与下游任务准确率之间并非总是线性相关,模型在处理有限训练数据时,可能会对某些文本片段产生过度自信的现象。

此次研究成果不仅为AI模型的训练策略提供了新的灵感,特别是在Token数量受限的情境下,扩散语言模型的应用潜力巨大。接下来,研究团队计划进一步扩大模型规模,并引入更多样化的数据,以期进一步验证并拓展这些令人振奋的发现。

更多热门内容
AI与机器人领域新动向:华为发布UCM技术,宇树双重身份亮相机器人运动会
机器人ETF(562500)是全市场唯一规模破百亿、流动性最佳、覆盖中国机器人产业链最全的机器人主题ETF,助力投资者一键布局中国机器人产业。 科创人工智能ETF华夏(589010)是机器人的大脑,20%涨…

2025-08-13

易方达中证人工智能ETF联接A:8月净值涨3.13%,年内累计涨幅达20.9%
现任易方达基金管理有限公司易方达中证科技50交易型开放式指数证券投资基金基金经理(自2020年3月16日起任职)、易方达中证人工智能主题交易型开放式指数证券投资基金基金经理(自2020年7月27日起任职)、易…

2025-08-13