6月19日
09:34
09:34arXiv: DeepSeek@Ruiyang Ma, Teng Ma, Junru Li, Hantian Zha, Xuchun Shang, Qingda Hu, Zheng Liu, Xinjun Yang, Tao Ma, Guojie Luo
精选71°
长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下,仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义,仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示,相比RDMA基线,SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。

推荐理由:长上下文推理,内存传输是瓶颈。新方案SAC用CXL按需取KV缓存,比RDMA吞吐量翻倍、延迟降到十分之一,做稀疏推理的值得一看。
6月9日
11:03
11:03arXiv cs.AI@Ang Li, Sean McLeish, Haozhe Chen, Nimit Kalra, Zaiqian Chen, Artem Gazizov, Venkata Anoop Suhas Kumar Morisetty, Bhavya Kailkhura, Harshitha Menon, Zhuang Liu, Brian R. Bartoldson, Tom Goldstein, Sanae Lotfi, Micah Goldblum, Pavel Izmailov
精选
长上下文语言模型推理受限于内存,KV缓存随上下文长度增长。现有压缩方法要么降低模型质量,要么需要大量计算。本文提出Latent Context Language Models (LCLMs),一种编码器-解码器压缩器,通过架构搜索和预训练350B+ tokens,实现1:4、1:8、1:16压缩比。LCLMs在通用任务性能、压缩速度和峰值内存使用上均优于现有方法,并可作为长时智能体的高效骨干,支持自适应扩展相关片段。
推荐理由:长上下文推理的内存瓶颈终于有了一个兼顾质量与速度的解法,做LLM推理优化或长时智能体的开发者值得关注,LCLM的压缩方案可以直接用于生产环境。
6月3日
5月29日