KV缓存是Transformer模型在自回归解码过程中存储已计算Key和Value张量的临时存储器,用于避免重复计算,但随序列增长会消耗大量显存,成为长文本推理的主要瓶颈。近期研究从压缩、淘汰、共享、硬件感知等角度提出了多种优化方案。
KV缓存近期进展
当前焦点与观察点
KV缓存优化的核心矛盾在于推理速度与显存消耗的权衡。当前趋势是引入智能淘汰策略(如VaSE基于模型输出不确定性随机丢弃缓存)或结构化压缩(如EinSort通过排序实现张量级压缩)。此外,面向Agent场景的服务端KV缓存管理(如AGENTSERVESIM)及网络感知的实例选择(如NetKV)也受到关注。这些方法虽各有侧重,但共同指向一个目标:在有限硬件资源下支持更长的上下文和更快的交互式推理。