KV缓存 · AI 话题观测

§ 01综述

KV缓存是Transformer模型在自回归解码过程中存储已计算Key和Value张量的临时存储器，用于避免重复计算，但随序列增长会消耗大量显存，成为长文本推理的主要瓶颈。近期研究从压缩、淘汰、共享、硬件感知等角度提出了多种优化方案。

KV缓存近期进展

预计算KV缓存共享：Can I Buy Your KV Cache? 论文提出将预计算的KV缓存作为可交易商品，在不同任务或用户间共享，减少重复计算开销。原文标题

简化注意力投影：一项工作发现Transformer可以省去Key和Value投影，直接重用已有表示，从而削减约50%的KV缓存占用。原文标题

端到端上下文压缩：LCLM方法通过可学习压缩器在编码阶段减少KV缓存中的冗余信息，提升长上下文推理效率。原文标题

跨层稀疏注意力：CLSA提出跨层共享稀疏注意力模式，在保持质量的同时实现7.6倍解码加速。原文标题

当前焦点与观察点

KV缓存优化的核心矛盾在于推理速度与显存消耗的权衡。当前趋势是引入智能淘汰策略（如VaSE基于模型输出不确定性随机丢弃缓存）或结构化压缩（如EinSort通过排序实现张量级压缩）。此外，面向Agent场景的服务端KV缓存管理（如AGENTSERVESIM）及网络感知的实例选择（如NetKV）也受到关注。这些方法虽各有侧重，但共同指向一个目标：在有限硬件资源下支持更长的上下文和更快的交互式推理。

§ 02相关报道10 条在档

§ 03邻近话题