蚂蚁 dInfer 框架：扩散模型推理速度提升 10 倍，超越自回归模型

AI 资讯
25 年 10 月 16 日
编辑

小强

近日，蚂蚁集团开源了全新的 dInfer 框架，专门用于扩散大语言模型的高效推理。这一框架的推出标志着扩散模型在自然语言处理领域的应用取得了重大进展，推理速度提升至以往的 10 倍，并在同样模型性能下超越了传统的自回归模型。

自回归模型长期以来一直是自然语言处理的主流，生成文本的过程类似于一个严谨的学生逐字撰写，因而速度受到限制。而扩散模型则采用「去噪」的方式生成文本，像是在处理被噪声覆盖的图片，通过逐步去除噪声来恢复清晰的图像。这种模式具有天然的并行优势，能够一次预测多个词语，从而提高效率。

尽管扩散模型理论上具有更高的潜力，但在实际推理中，其速度问题依然显著。为了解决这一问题，蚂蚁团队在 dInfer 框架中采用了创新的设计，将推理流程分为四个模块，分别为模型接入、KV 缓存管理、扩散迭代管理和解码策略。在并行解码方面，dInfer 通过「层级解码」和「信用解码」两种新策略有效减少了生成过程中的语义冲突，提高了结果的稳定性。

在 KV 缓存方面，dInfer 提出了「邻近 KV 缓存刷新」策略，该策略只针对最近的上下文进行重新计算，显著降低了计算开销。通过这一系列技术创新，dInfer 在性能上表现优异。在与 Fast-dLLM 和 vLLM 框架的比较测试中，dInfer 在多个数据集上展现了卓越的推理速度和吞吐量，关闭 KV 缓存时，平均 TPS 达到了 407.36，是 Fast-dLLM 的 6.5 倍。

dInfer 框架的推出，不仅提升了扩散模型的实用性，也为自然语言处理领域的未来发展开辟了新的方向。

项目:https://github.com/inclusionAI/dInfer

划重点:

🌟dInfer 框架使扩散大语言模型的推理速度提升 10 倍，超越传统自回归模型。

🚀采用并行解码和 KV 缓存管理技术，有效解决了扩散模型的推理速度瓶颈。

📊实验数据显示，dInfer 在推理性能上远超其他同类框架，显示出广泛的应用潜力。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

蚂蚁 dInfer 框架：扩散模型推理速度提升 10 倍，超越自回归模型

Airtel 与 IBM 携手推进云计算和 AI 技术的创新

字节跳动开源 FaceCLIP 模型：文本驱动的高保真人脸生成技术正式上线

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​Airtel 与 IBM 携手推进云计算和 AI 技术的创新

字节跳动开源 FaceCLIP 模型：文本驱动的高保真人脸生成技术正式上线

阿里巴巴 2025 财年收入 9963.47 亿元 称开启 AI 时代全新征程

​这家 AI 驱动的创业工作室计划每年孵化 10 万家新公司

微软推出 MAI-DxO AI 系统，医疗诊断准确率提升四倍

云计算巨头 Cloudflare 推出 「按爬虫付费」 市场，让网站内容变现更轻松

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Airtel 与 IBM 携手推进云计算和 AI 技术的创新

阿里巴巴 2025 财年收入 9963.47 亿元称开启 AI 时代全新征程

这家 AI 驱动的创业工作室计划每年孵化 10 万家新公司

云计算巨头 Cloudflare 推出「按爬虫付费」市场，让网站内容变现更轻松