kv缓存·general

KV缓存

别名
首次出现
2026-05-22
最近出现
2026-06-13
累计提及
20
§ 01综述

KV缓存是Transformer模型在自回归解码过程中存储已计算Key和Value张量的临时存储器,用于避免重复计算,但随序列增长会消耗大量显存,成为长文本推理的主要瓶颈。近期研究从压缩、淘汰、共享、硬件感知等角度提出了多种优化方案。

KV缓存近期进展

  • 预计算KV缓存共享:Can I Buy Your KV Cache? 论文提出将预计算的KV缓存作为可交易商品,在不同任务或用户间共享,减少重复计算开销。原文标题
  • 简化注意力投影:一项工作发现Transformer可以省去Key和Value投影,直接重用已有表示,从而削减约50%的KV缓存占用。原文标题
  • 端到端上下文压缩:LCLM方法通过可学习压缩器在编码阶段减少KV缓存中的冗余信息,提升长上下文推理效率。原文标题
  • 跨层稀疏注意力:CLSA提出跨层共享稀疏注意力模式,在保持质量的同时实现7.6倍解码加速。原文标题
  • 当前焦点与观察点

    KV缓存优化的核心矛盾在于推理速度与显存消耗的权衡。当前趋势是引入智能淘汰策略(如VaSE基于模型输出不确定性随机丢弃缓存)或结构化压缩(如EinSort通过排序实现张量级压缩)。此外,面向Agent场景的服务端KV缓存管理(如AGENTSERVESIM)及网络感知的实例选择(如NetKV)也受到关注。这些方法虽各有侧重,但共同指向一个目标:在有限硬件资源下支持更长的上下文和更快的交互式推理。

    § 02相关报道10 条在档
    1. 01
      Dan Fu在斯坦福CS336客座讲座:KV缓存、Megakernels与Parcae缩放定律
      Together AI
    2. 02
      Can I Buy Your KV Cache? 论文提出预计算 KV 缓存共享方案
      arXiv cs.AI
    3. 03
      Transformer 可省去 Key 和 Value 投影?新论文砍掉 50% KV 缓存
      rohanpaul_ai
    4. 04
      LCLM:端到端上下文压缩新方法,提升长上下文推理效率
      arXiv cs.AI
    5. 05
      AGENTSERVESIM:面向多轮LLM Agent服务的硬件感知模拟器
      arXiv cs.AI
    6. 06
      EinSort:通过排序实现LLM张量化压缩
      arXiv cs.AI
    7. 07
      CLSA:跨层稀疏注意力实现7.6倍解码加速
      arXiv cs.AI
    8. 08
      Self-Pruned Key-Value Attention:让LLM只保留未来有用的记忆
      rohanpaul_ai
    9. 09
      VaSE:面向推理模型的随机KV缓存淘汰方法
      arXiv cs.LG
    10. 10
      NetKV:面向解耦LLM推理的网络感知解码实例选择
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/KV%E7%BC%93%E5%AD%98