精选理由
这篇论文发现现有大模型遗忘只是表面记忆,新方法RepSelect能真正让模型忘记特定知识,还防微调和提示破解。
现有大模型遗忘方法(如GradDiff、NPO、SimNPO、RMU、UNDIAL)易被微调或少样本提示逆转,表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分,隔离遗忘集特定的表示,保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上,对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估,RepSelect后学习准确率降低幅度是最好基线的4-50倍,且对少样本提示攻击接近完全鲁棒。
AI 翻译 · 中文
现有大模型遗忘方法(如GradDiff、NPO、SimNPO、RMU、UNDIAL)易被微调或少样本提示逆转,表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分,隔离遗忘集特定的表示,保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上,对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估,RepSelect后学习准确率降低幅度是最好基线的4-50倍,且对少样本提示攻击接近完全鲁棒。
Making large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tun…
- Tri Dao (FlashAttention)06-16 12:28原文