SAC: 基于CXL的稀疏注意力LLM解耦KV缓存系统

精选理由

长上下文推理，内存传输是瓶颈。新方案SAC用CXL按需取KV缓存，比RDMA吞吐量翻倍、延迟降到十分之一，做稀疏推理的值得一看。

AI 摘要

长上下文LLM推理的内存瓶颈日益突出。传统RDMA解耦内存池对于稀疏注意力模型效率低下，仍需完整获取KV缓存。SAC系统利用CXL的低延迟、缓存行粒度加载/存储语义，仅在推理时按需获取所需的top-k KV条目。在DeepSeek-V3.2上使用SGLang的评估显示，相比RDMA基线，SAC实现了2.1倍吞吐量提升、9.7倍TTFT降低和1.8倍TBT降低。

AI 翻译 · 中文

arXiv: DeepSeekThe scaling of LLMs toward long-context inference has shifted the primary serving system bottleneck from computation to memory capacity. Traditional solutions for dense attention models rely on RDMA-based disaggregated m…

IT之家06-16 09:25原文
Sebastian Raschka06-18 19:09原文

阅读原文