在 AI 领域,Token 的数量限制一直是一个亟待解决的问题。最近,一项由华人团队完成的研究引起了广泛关注,研究显示,扩散语言模型在 Token 数量受限的情况下,展现出比自回归模型多三倍的数据学习潜力。这一发现可能会为未来的语言模型训练开辟新局面。
这项研究的核心是一个参数规模为 10 亿的扩散模型,团队使用 10 亿个 Token 进行了 480 个周期的训练。在 HellaSwag 和 MMLU 基准测试中,该模型分别达到了 56% 和 33% 的准确率,且训练过程中未使用任何特殊技巧或数据筛选。更令人惊讶的是,即使在极度重复的数据训练中,模型的性能仍未出现饱和,表明它可以从同一数据中提取出更多有用的信息。
研究人员分析了扩散语言模型的强大数据学习能力,归结为两个主要原因。首先,扩散模型采用了双向建模和扩散目标,这使其能够更全面地挖掘数据中的信息,而传统的自回归模型在处理数据时存在因果限制。其次,扩散模型的计算密度更高,它在训练和推理过程中投入了更多计算资源,通过多次处理数据来优化预测,从而提升了模型的整体性能。
尽管扩散模型对数据的重复使用表现出一定的鲁棒性,研究团队发现,随着训练周期的增加,模型会出现过拟合现象。然而,令人惊讶的是,即使在过拟合的情况下,模型在下游任务中的性能并没有立即下降,反而有时会继续提升。这是因为验证损失的变化与下游任务的准确率之间并不总是呈正相关,模型在处理有限的训练数据时,可能会对某些文本片段表现出过于自信。
这项研究的发现为未来 AI 模型的训练方法提供了新的思路,尤其在 Token 数量受限的情况下,扩散语言模型的应用前景将更加广阔。研究团队计划在接下来的工作中使用更大的模型和更多独特的数据,以进一步验证这些发现。