蚂蚁 dInfer 框架:扩散模型推理速度提升 10 倍,超越自回归模型

近日,蚂蚁集团了全新的 dInfer 框架,专门用于扩散的高效推理。这一框架的推出标志着领域的应用取得了重大进展,推理速度提升至以往的 10 倍,并在同样模型性能下超越了传统的自回归模型。

自回归模型长期以来一直是自然语言处理的主流,生成文本的过程类似于一个严谨的学生逐字撰写,因而速度受到限制。而扩散模型则采用 「去噪」 的方式生成文本,像是在处理被噪声覆盖的图片,通过逐步去除噪声来恢复清晰的图像。这种模式具有天然的并行优势,能够一次预测多个词语,从而提高效率。

尽管扩散模型理论上具有更高的潜力,但在实际推理中,其速度问题依然显著。为了解决这一问题,蚂蚁团队在 dInfer 框架中采用了创新的设计,将推理流程分为四个模块,分别为模型接入、KV 缓存管理、扩散迭代管理和解码策略。在并行解码方面,dInfer 通过 「层级解码」 和 「信用解码」 两种新策略有效减少了生成过程中的语义冲突,提高了结果的稳定性。

在 KV 缓存方面,dInfer 提出了 「邻近 KV 缓存刷新」 策略,该策略只针对最近的上下文进行重新计算,显著降低了计算开销。通过这一系列技术创新,dInfer 在性能上表现优异。在与 Fast-dLLM 和 vLLM 框架的比较测试中,dInfer 在多个数据集上展现了卓越的推理速度和吞吐量,关闭 KV 缓存时,平均 TPS 达到了 407.36,是 Fast-dLLM 的 6.5 倍。

dInfer 框架的推出,不仅提升了扩散模型的实用性,也为自然语言处理领域的未来发展开辟了新的方向。

项目:https://github.com/inclusionAI/dInfer

划重点:

🌟dInfer 框架使扩散大语言模型的推理速度提升 10 倍,超越传统自回归模型。

🚀采用并行解码和 KV 缓存管理技术,有效解决了扩散模型的推理速度瓶颈。

📊实验数据显示,dInfer 在推理性能上远超其他同类框架,显示出广泛的应用潜力。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

​Airtel 与 IBM 携手推进云计算和 AI 技术的创新

2025-10-16 1:20:51

AI 资讯

字节跳动开源 FaceCLIP 模型:文本驱动的高保真人脸生成技术正式上线

2025-10-16 1:20:56

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索