精选理由
KV缓存是长上下文推理的瓶颈,这篇论文用自学习剪枝解决了内存爆炸问题,做LLM推理优化或长文本应用的开发者可以直接参考其方法。
一篇新论文提出Self-Pruned Key-Value Attention方法,让大语言模型在长文本生成时只保留对后续token有用的历史键值对,从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分,只保留高分项,同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略,无需手工规则。实验表明,模型通常只保留10%到33.7%的旧键值对,性能接近全注意力,解码速度在长上下文场景下提升2.1到4.6倍。
AI 翻译 · 中文
一篇新论文提出Self-Pruned Key-Value Attention方法,让大语言模型在长文本生成时只保留对后续token有用的历史键值对,从而大幅压缩KV缓存。该方法通过一个小型预测器为每个键值对打分,只保留高分项,同时确保最近token始终保留。模型在训练时通过正常的next-token预测学习剪枝策略,无需手工规则。实验表明,模型通常只保留10%到33.7%的旧键值对,性能接近全注意力,解码速度在长上下文场景下提升2.1到4.6倍。
This paper teaches LLMs to save memory by keeping only past tokens likely to matter later. The problem is that long text generation makes the key-value cache grow, and this cache is the model’s working memory of earlier …