DeepSeek 发表纯技术论文报告 《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》

DeepSeek 团队近日发布了一种名为 NSA(Natively Sparse Attention) 的新型稀疏注意力机制,提高了长文本处理的效率,同时保持甚至超越传统全注意力 (Full Attention) 模型的性能。

NSA 采用动态分层稀疏策略,将粗粒度的令牌压缩与细粒度的令牌选择相结合,以保留全局上下文信息和局部精度。其核心创新包括:(1) 优化计算强度以提高现代硬件的计算效率,并通过专门的实现最大化利用计算资源;(2) 支持端到端训练,有效减少预训练计算成本,同时保持模型性能。

实验结果表明,基于 NSA 预训练的模型在通用基准测试、长文本任务及指令推理方面均表现出色,并在 64k 长度的序列处理中,实现了在解码、前向传播和反向传播各阶段的显著加速。NSA 的推出有望推动下一代在高效长文本建模领域的进一步发展。

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索