當地時間 2 月 18 日,DeepSeek 官方發文公布了一篇新的論文,值得關注的是,論文中提出了一種新的注意力機制「NSA」。
據 DeepSeek 介紹,「NSA」是一個用於超快長上下文訓練和推斷的本地可訓練的稀疏注意力機制,並且還具有與硬體對齊的特點。
研究通過對現實世界語言語料庫的綜合實驗來評估 NSA,其中作者評估了 NSA 在通用語言評估、長上下文評估和鏈式推理評估中的表現。
實驗結果表明,NSA 實現了與 Full Attention 基線相當或更優的性能,同時優於現有的稀疏注意力方法。
此外,與 Full Attention 相比,NSA 在解碼、前向和後向階段提供了明顯的加速,且加速比隨著序列長度的增加而增加,這些結果驗證了分層稀疏注意力設計有效地平衡了模型能力和運算效率。
本文為愛范兒授權刊登,原文標題為「DeepSeek 發佈新論文,創始人親自掛名」