全部 AI 动态 · AI 热点

arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu

精选72°

FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式，通过神经记忆索引器预测未来上下文需求，仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略，将索引器作为独立双编码器训练，无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中，LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%，同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下，物理 KV 缓存开销降低超过 90%，且不损害模型核心推理能力。

论文稀疏注意力长上下文 KV缓存压缩 DeepSeek-V4 推理效率

推荐理由：LSA 解决了超长上下文推理的 GPU 内存瓶颈，做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案，显著降低部署成本。

原文

6月5日

12:06

arXiv cs.AI@Yutao Sun, Yanqi Zhang, Li Dong, Jianyong Wang, Furu Wei

精选

本文提出跨层稀疏注意力（CLSA），一种基于KV共享架构（如YOCO）的新方法。核心创新在于不仅共享KV缓存，还共享路由索引——单个索引器计算一次token级top-k选择，结果跨层复用，既保留了细粒度选择性，又分摊了路由开销。实验显示，在128K上下文下，CLSA实现最高7.6倍解码加速和17.1倍整体吞吐提升，同时保持模型质量。这为长上下文LLM提供了一种兼顾效率与质量的架构方案。

论文稀疏注意力长上下文推理加速 KV缓存 YOCO

推荐理由：长上下文推理的瓶颈终于有了系统级解法——CLSA通过共享路由索引同时加速预填充、缓存和解码，做LLM推理优化的团队值得看看这个架构思路。

原文

12:01

arXiv cs.AI@Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen

精选

Vortex 是一个专为大规模语言模型（LLM）设计的稀疏注意力服务系统，解决了稀疏注意力算法在部署和评估中工程成本高的问题。它通过 Python 嵌入式前端语言和页面中心张量抽象，支持广泛稀疏注意力算法的快速原型设计、部署和评估。在 NVIDIA B200 GPU 上，Vortex 使 AI Agent 自动生成的算法吞吐量比全注意力提升高达 3.46 倍，并在 MLA 架构的 GLM-4.7-Flash 和 229B 参数的 MiniMax-M2.7 上分别实现 4.7 倍和 1.37 倍的吞吐量提升。该系统显著加速了稀疏注意力算法的迭代，尤其适用于长序列生成场景。

论文稀疏注意力 LLM服务 AI Agent 吞吐量优化 Vortex

推荐理由：稀疏注意力是长上下文 LLM 服务的关键瓶颈，Vortex 让 AI Agent 和研究者能快速实验新算法，做 LLM 推理优化的团队可以直接用它提升吞吐量，值得关注。

原文

5月26日

12:38

arXiv: DeepSeek@Spandan Pratyush

精选

该论文提出一种基于语法角色（词性标注）的稀疏注意力机制，通过动态生成注意力掩码，只允许语法相关的词对进行交互，从而降低Transformer自注意力的计算复杂度。实验在SST-2情感分类任务上使用DistilBERT架构，硬掩码和软掩码策略分别达到0.8200和0.8165的准确率，与全注意力的0.8200持平，但显著减少了理论计算开销。该方法为构建更高效、可解释且融入语言学知识的Transformer模型提供了新路径。

论文稀疏注意力 Transformer 语法引导可解释性词性标注

推荐理由：做NLP模型压缩或可解释性研究的开发者，可以关注这种用语法知识替代暴力稀疏化的思路——既省算力又不掉点，值得在长文本任务上试试。

原文

5月19日

14:22

arXiv cs.AI@Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li, Xu Han, Edoardo M. Ponti, André F. T. Martins, Marcos V. Treviso

精选72°

DashAttention 提出了一种新的分层注意力机制，通过可微分的 α-entmax 变换替代传统 top-k 操作，自适应地为每个查询选择可变数量的关键值块，从而解决了现有方法（如 NSA 和 InfLLMv2）中固定块数和梯度阻断的问题。该方法保持整个层次结构完全可微分，且具有非分散性，提升了长上下文建模能力。实验表明，在 75% 稀疏度下，DashAttention 的准确率与全注意力相当，在高稀疏场景下优于 NSA 和 InfLLMv2。其基于 Triton 的 GPU 实现推理速度甚至超过 FlashAttention-3。DashAttention 为长上下文模型提供了一种高效且经济的方案。

论文注意力机制长上下文稀疏注意力可微分 LLM

推荐理由：长上下文 LLM 的推理成本一直是痛点，DashAttention 用可微分稀疏注意力在保持精度的同时大幅提速，做长文本推理和模型优化的研究者值得关注。

原文