论文精选

最小干预KV缓存压缩:多样性惩罚幸存者α方法

Minimal-Intervention KV Retention: A Design-Space Study and a Diversity-Penalty Survivor

精选理由

KV缓存压缩是长上下文推理的关键瓶颈,做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案,值得在自家模型上试试。

AI 摘要

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现,发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改,通过引入多样性惩罚项替代传统argmax-top-k选择,在Qwen-7B和Llama-8B模型上,在64和128预算下,α在两项测试中显著优于基线。该发现表明,最小化的评分修改比复杂的结构重设计更有效,且严格的实验协议使这一不对称性得以显现。

AI 翻译 · 中文

该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现,发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改,通过引入多样性惩罚项替代传统argmax-top-k选择,在Qwen-7B和Llama-8B模型上,在64和128预算下,α在两项测试中显著优于基线。该发现表明,最小化的评分修改比复杂的结构重设计更有效,且严格的实验协议使这一不对称性得以显现。

arXiv: DeepSeekKV-cache compression at small budgets is a crowded design space spanning cache representation, head-wise routing, compression cadence, decoding behavior, and within-budget scoring. We study seven mechanisms across these