AnchorKV:基于拒绝锚点的软惩罚安全感知KV缓存压缩

AnchorKV: Safety-Aware KV Cache Compression via Soft Penalty with a Refusal Anchor

精选理由

想压缩KV缓存又怕模型不安全?AnchorKV用软惩罚巧妙拒绝有害token,既省内存又防越狱,适合部署场景。

AI 摘要

AnchorKV是一种即插即用的KV缓存压缩方法,通过构建离线安全锚点来偏置token保留分数,使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术,在逐层键投影空间中提取拒绝方向,并引入软惩罚token选择规则。在保持压缩效率的同时,AnchorKV能显著提升LLM的安全对齐能力,抵御越狱攻击。实验表明,在适度牺牲少量性能的情况下,该方法可有效降低有害输出率。

AI 翻译 · 中文

AnchorKV是一种即插即用的KV缓存压缩方法,通过构建离线安全锚点来偏置token保留分数,使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术,在逐层键投影空间中提取拒绝方向,并引入软惩罚token选择规则。在保持压缩效率的同时,AnchorKV能显著提升LLM的安全对齐能力,抵御越狱攻击。实验表明,在适度牺牲少量性能的情况下,该方法可有效降低有害输出率。

arXiv cs.LGLarge language models (LLMs) outperform earlier architectures on generative inference and long-context tasks, but their large size introduces significant challenges in memory usage, energy cost, and on-device deployment.