RepSelect：通过表示选择性实现鲁棒的大模型遗忘

精选理由

这篇论文发现现有大模型遗忘只是表面记忆，新方法RepSelect能真正让模型忘记特定知识，还防微调和提示破解。

AI 摘要

现有大模型遗忘方法（如GradDiff、NPO、SimNPO、RMU、UNDIAL）易被微调或少样本提示逆转，表明确实只是浅层遗忘。RepSelect通过每次更新前崩塌权重梯度的主成分，隔离遗忘集特定的表示，保持通用能力不受影响。在生物危害知识和虐待倾向两个遗忘类别上，对Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite四个模型族评估，RepSelect后学习准确率降低幅度是最好基线的4-50倍，且对少样本提示攻击接近完全鲁棒。

AI 翻译 · 中文

arXiv: DeepSeekMaking large language models (LLMs) deeply forget specific knowledge and values without sacrificing general capabilities remains a central challenge in unlearning. However, current methods are easily reversed by fine-tun…

Tri Dao (FlashAttention)06-16 12:28原文

阅读原文