
DeepSeek 团队近日发布了一种名为 NSA(Natively Sparse Attention) 的新型稀疏注意力机制,提高了长文本处理的效率,同时保持甚至超越传统全注意力 (Full Attention) 模型的性能。
NSA 采用动态分层稀疏策略,将粗粒度的令牌压缩与细粒度的令牌选择相结合,以保留全局上下文信息和局部精度。其核心创新包括:(1) 优化计算强度以提高现代硬件的计算效率,并通过专门的实现最大化利用计算资源;(2) 支持端到端训练,有效减少预训练计算成本,同时保持模型性能。
实验结果表明,基于 NSA 预训练的模型在通用基准测试、长文本任务及指令推理方面均表现出色,并在 64k 长度的序列处理中,实现了在解码、前向传播和反向传播各阶段的显著加速。NSA 的推出有望推动下一代大语言模型在高效长文本建模领域的进一步发展。

