精选 AI 资讯 · AI 热点

arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu

精选72°

FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式，通过神经记忆索引器预测未来上下文需求，仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略，将索引器作为独立双编码器训练，无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中，LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%，同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下，物理 KV 缓存开销降低超过 90%，且不损害模型核心推理能力。

论文稀疏注意力长上下文 KV缓存压缩 DeepSeek-V4 推理效率

推荐理由：LSA 解决了超长上下文推理的 GPU 内存瓶颈，做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案，显著降低部署成本。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月15日

10:10

arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin

精选

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现，发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改，通过引入多样性惩罚项替代传统argmax-top-k选择，在Qwen-7B和Llama-8B模型上，在64和128预算下，α在两项测试中显著优于基线。该发现表明，最小化的评分修改比复杂的结构重设计更有效，且严格的实验协议使这一不对称性得以显现。

论文 KV缓存压缩推理模型数学推理 Qwen Llama

推荐理由：KV缓存压缩是长上下文推理的关键瓶颈，做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案，值得在自家模型上试试。

原文

5月14日

13:27

arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan

精选

KVServe 是首个服务感知的自适应 KV 通信压缩框架，专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器，动态选择最优压缩方案。相比固定压缩策略，KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速，在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中，适用于不同模型、GPU 和网络环境。

论文 KV缓存压缩分离式LLM服务 vLLM 自适应优化通信效率

推荐理由：KV 通信已成为分离式 LLM 服务的瓶颈，KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队，这个框架值得关注，可以直接集成到 vLLM 中试用。

原文