华人团队破解 Token 限制，扩散模型的潜力超越自回归三倍！

AI 资讯
17 小时前
编辑

小强

在 AI 领域，Token 的数量限制一直是一个亟待解决的问题。最近，一项由华人团队完成的研究引起了广泛关注，研究显示，扩散语言模型在 Token 数量受限的情况下，展现出比自回归模型多三倍的数据学习潜力。这一发现可能会为未来的语言模型训练开辟新局面。

这项研究的核心是一个参数规模为 10 亿的扩散模型，团队使用 10 亿个 Token 进行了 480 个周期的训练。在 HellaSwag 和 MMLU 基准测试中，该模型分别达到了 56% 和 33% 的准确率，且训练过程中未使用任何特殊技巧或数据筛选。更令人惊讶的是，即使在极度重复的数据训练中，模型的性能仍未出现饱和，表明它可以从同一数据中提取出更多有用的信息。

研究人员分析了扩散语言模型的强大数据学习能力，归结为两个主要原因。首先，扩散模型采用了双向建模和扩散目标，这使其能够更全面地挖掘数据中的信息，而传统的自回归模型在处理数据时存在因果限制。其次，扩散模型的计算密度更高，它在训练和推理过程中投入了更多计算资源，通过多次处理数据来优化预测，从而提升了模型的整体性能。

尽管扩散模型对数据的重复使用表现出一定的鲁棒性，研究团队发现，随着训练周期的增加，模型会出现过拟合现象。然而，令人惊讶的是，即使在过拟合的情况下，模型在下游任务中的性能并没有立即下降，反而有时会继续提升。这是因为验证损失的变化与下游任务的准确率之间并不总是呈正相关，模型在处理有限的训练数据时，可能会对某些文本片段表现出过于自信。

这项研究的发现为未来 AI 模型的训练方法提供了新的思路，尤其在 Token 数量受限的情况下，扩散语言模型的应用前景将更加广阔。研究团队计划在接下来的工作中使用更大的模型和更多独特的数据，以进一步验证这些发现。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

华人团队破解 Token 限制，扩散模型的潜力超越自回归三倍！

全球首只「机器藏羚羊」亮相可可西里，实现零干扰近距离观测

腾讯 2025 年 Q2 财报：研发投入创新高，混元 3D 模型大放异彩！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

全球首只 「机器藏羚羊」 亮相可可西里，实现零干扰近距离观测

腾讯 2025 年 Q2 财报：研发投入创新高，混元 3D 模型大放异彩！

ChatGPT 升级新功能：连接外部服务，助力企业高效办公

OpenAI 与印度政府启动 AI 教育合作，OpenAI 学院首次国际落地

苹果再轰 AI 推理能力，GitHub 大佬怒怼：这不是推理能力的真实面貌！

Figma 官方 MCP 发布！AI 设计到代码一键生成，效率翻倍！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

全球首只「机器藏羚羊」亮相可可西里，实现零干扰近距离观测