VaSE：面向推理模型的随机KV缓存淘汰方法

精选理由

推理模型的长输出让内存和计算成本飙升，VaSE用随机淘汰策略在4倍压缩下保持高准确率，做推理模型优化的开发者可以直接参考论文实现。

AI 摘要

推理模型通过长思维链提升准确性，但长输出导致内存和计算瓶颈。现有KV缓存淘汰方法在压缩缓存时会丢失关键信息，导致模型陷入重复推理循环。研究发现，少量值状态具有异常大的幅度，淘汰它们会引发灾难性失败；引入随机性可提高缓存多样性。基于此，研究者提出VaSE方法，无需训练即可保护大幅度值状态并促进多样化淘汰决策。在6个推理任务上，Qwen3模型使用VaSE实现4倍KV缓存压缩，准确率超过最强淘汰方法4%以上，弥合了效率与准确性之间的差距。

AI 翻译 · 中文

arXiv cs.LGReasoning models improve accuracy through extended chains of thought, but their long outputs create a memory and compute bottleneck. KV cache eviction methods reduce this cost by evicting unimportant key-value pairs from…

阅读原文