​英伟达与港大等合作推出快速 KV 缓存,助力扩散模型提速

近日,、香港大学与麻省理工学院的研究团队联合发布了一种名为 Fast-dLLM 的创新技术,旨在提升扩散语言模型的推理效率。与传统的自回归模型不同,扩散语言模型采用逐步去除文本噪声的方式生成文本,因此能够在一次迭代中生成多个单词,整体效率更高。然而,在实际应用中,许多扩散语言模型的推理速度仍然不如自回归模型,主要受限于缺乏键值 (KV) 缓存支持以及并行解码时生成质量下降。

KV 缓存是自回归模型中常用的加速推理技术,通过存储和重用之前计算的注意力状态,显著减少重复计算,从而提高生成速度。但由于扩散语言模型采用双向注意力机制,直接应用 KV 缓存并不容易。Fast-dLLM 架构的创新之处在于将文本生成过程划分为多个块,每个块包含一定数量的 token。通过这种块状生成方式,模型可以在生成一个块之前预先计算并存储其他块的 KV 缓存,进而避免重复计算。

尽管 KV 缓存机制有效提升了推理速度,但在并行解码时,生成质量往往会下降。这是因为扩散型模型在解码时假设条件独立性,然而标记之间可能存在复杂的依赖关系。为了解决这一问题,Fast-dLLM 提出了一种基于置信度的平行解码策略。在每个解码步骤中,模型会计算每个标记的置信度,并选择置信度超过阈值的标记进行解码。这种策略确保了高置信度的情况下能够安全进行并行解码,从而维持生成文本的连贯性和准确性。

为验证 Fast-dLLM 的性能,研究人员在 NVIDIAA10080GBGPU 上对 LLaDA 和 Dream 两种扩散语言模型进行了全面评估,涵盖了数学推理和代码生成等任务。在 KV 缓存机制的测试中,块大小为 32 时,模型的吞吐量达到了 54.4tokens/s,准确率为 78.5%。并行解码测试中,采用动态阈值策略优于固定 token 数基线。整体来看,LLaDA 模型在 GSM8K 任务中仅用 KVCache 加速 3.2 倍,并行解码加速 2.5 倍,两者结合的速度提升达到 8.1 倍,生成长度达到 1024 时的端到端加速更是高达 27.6 倍。所有测试结果显示,Fast-dLLM 在加速的同时,保持了生成质量的稳定。

划重点:

🌟Fast-dLLM 技术由英伟达和香港大学等机构合作开发,提升了扩散语言模型的推理速度。

⚡KV 缓存机制通过存储和重用注意力状态,减少了冗余计算,显著加快生成效率。

📈基于置信度的平行解码策略确保了文本生成的连贯性与准确性,提升了模型整体性能。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

美团再度投资具身智能领域,星海图完成超 1 亿美元融资

2025-7-10 1:21:20

AI 资讯

Manus 回应裁员传闻: 调整部分业务团队以提升运营效率

2025-7-10 1:21:26

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索