越狱攻击下鲁棒有害特征：注意力头专业化的机制证据

精选理由

这篇论文用注意力头机制解释了越狱攻击无法完全消除安全特征，还提出一种无需训练的检测方法，效果不输传统对抗训练。

AI 摘要

该研究揭示越狱攻击并非消除所有安全特征，而是选择性抑制早期层的Adversarially Compromised Heads (ACHs)，而中间层的Safety-Aligned Heads (SAHs)保持鲁棒激活。消融实验表明，抑制少量ACHs即可在正常拒绝的输入上诱发出越狱行为，而移除SAHs会显著削弱中间层的安全激活。此外，通过直接读取这些持久激活信号（无需训练）即可获得与强对抗鲁棒性相当的聚合检测性能。

AI 翻译 · 中文

arXiv cs.AIJailbreak attacks bypass LLM safety alignment, yet their mechanisms remain poorly understood. We provide evidence that attacks do not comprehensively eliminate safety features, but instead selectively suppress specific a…

阅读原文