12:23arXiv cs.LG@Mufei Li, Shikun Liu, Dongqi Fu, Haoyu Wang, Yinglong Xia, Hong Li, Hong Yan, Pan LiKVEraser是一种面向大语言模型KV缓存的编辑方法,旨在高效擦除已处理上下文中的指定片段。该论文提出,直接擦除会导致全局影响,需重新计算后续所有token,成本高昂。KVEraser通过两阶段训练(通用跨度-邻居预训练和任务微调),仅替换被擦除区间的KV状态,保留其余缓存。在1K至32K上下文长度的域内任务中,KVEraser的擦除后性能接近完全重计算,延迟仅增加24%,而完全重计算延迟增加17.6倍。在未见过的长文档问答任务中,KVEraser在有害事实干扰下比近似基线表现更好,速度比完全重计算快3至4倍。论文KVEraserKV缓存上下文擦除推理效率长上下文推荐理由:这篇论文提出KVEraser,能快速从大模型KV缓存中擦除指定内容,不用全部重算,1K-32K长度下延迟只增24%,效果接近重算,适合长上下文场景。原文