
近日,DeepSeek-AI 团队发布了一项突破性研究,提出 NSA(Natively Sparse Attention),一种原生可训练的稀疏注意力机制。该方法通过层次化稀疏策略和硬件优化,在保证模型性能的同时,将长文本处理速度提升至全注意力机制的 11.6 倍。实验表明,NSA 在知识问答、数学推理、代码生成等任务上超越现有方法,并在 64k-token 级别的长文本推理中展现出卓越的计算效率。作为下一代 Transformer 模型优化的关键技术,NSA 有望在大规模语言模型、代码生成与 AI 代理系统等应用中发挥重要作用。

