自回归模型长期以来一直是自然语言处理的主流,生成文本的过程类似于一个严谨的学生逐字撰写,因而速度受到限制。而扩散模型则采用 「去噪」 的方式生成文本,像是在处理被噪声覆盖的图片,通过逐步去除噪声来恢复清晰的图像。这种模式具有天然的并行优势,能够一次预测多个词语,从而提高效率。
尽管扩散模型理论上具有更高的潜力,但在实际推理中,其速度问题依然显著。为了解决这一问题,蚂蚁团队在 dInfer 框架中采用了创新的设计,将推理流程分为四个模块,分别为模型接入、KV 缓存管理、扩散迭代管理和解码策略。在并行解码方面,dInfer 通过 「层级解码」 和 「信用解码」 两种新策略有效减少了生成过程中的语义冲突,提高了结果的稳定性。
在 KV 缓存方面,dInfer 提出了 「邻近 KV 缓存刷新」 策略,该策略只针对最近的上下文进行重新计算,显著降低了计算开销。通过这一系列技术创新,dInfer 在性能上表现优异。在与 Fast-dLLM 和 vLLM 框架的比较测试中,dInfer 在多个数据集上展现了卓越的推理速度和吞吐量,关闭 KV 缓存时,平均 TPS 达到了 407.36,是 Fast-dLLM 的 6.5 倍。
dInfer 框架的推出,不仅提升了扩散模型的实用性,也为自然语言处理领域的未来发展开辟了新的方向。
项目:https://github.com/inclusionAI/dInfer
划重点:
🌟dInfer 框架使扩散大语言模型的推理速度提升 10 倍,超越传统自回归模型。
🚀采用并行解码和 KV 缓存管理技术,有效解决了扩散模型的推理速度瓶颈。
📊实验数据显示,dInfer 在推理性能上远超其他同类框架,显示出广泛的应用潜力。










