10:08arXiv cs.AI@Yanchen Yin, Dongqi Han, Linghui Li该研究揭示越狱攻击并非消除所有安全特征,而是选择性抑制早期层的Adversarially Compromised Heads (ACHs),而中间层的Safety-Aligned Heads (SAHs)保持鲁棒激活。消融实验表明,抑制少量ACHs即可在正常拒绝的输入上诱发出越狱行为,而移除SAHs会显著削弱中间层的安全激活。此外,通过直接读取这些持久激活信号(无需训练)即可获得与强对抗鲁棒性相当的聚合检测性能。论文越狱攻击注意力头LLM安全对抗鲁棒性鲁棒有害特征推荐理由:这篇论文用注意力头机制解释了越狱攻击无法完全消除安全特征,还提出一种无需训练的检测方法,效果不输传统对抗训练。原文
10:44arXiv cs.AI@Nicola FrancoAnthropic发布了对两个前沿模型Fable 5和Opus 4.8的红队研究。研究使用HackAgent框架,对7,826个有害意图进行自动化越狱攻击,覆盖十类危害。最强自适应树状攻击在Opus 4.8上成功率达11.5%,而在Fable 5上仅为6.1%。两个模型分别产生了1,620和702个经专家确认的有害输出。结论表明,即使经过充分测试的前沿模型仍可在持续自动化攻击下被可靠破解。论文AnthropicFable 5Opus 4.8AI安全越狱攻击10 个信源在谈推荐理由:Anthropic公开了Fable 5和Opus 4.8的对抗性测试结果:树状攻击破Opus 4.8的11.5%,但Fable 5更抗打,仅6.1%。别被整体数字骗了,残存风险不小。原文
10:18arXiv cs.LG@Ning Ni, Yingjie LaoAnchorKV是一种即插即用的KV缓存压缩方法,通过构建离线安全锚点来偏置token保留分数,使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术,在逐层键投影空间中提取拒绝方向,并引入软惩罚token选择规则。在保持压缩效率的同时,AnchorKV能显著提升LLM的安全对齐能力,抵御越狱攻击。实验表明,在适度牺牲少量性能的情况下,该方法可有效降低有害输出率。AI模型AnchorKVKV缓存压缩越狱攻击安全对齐推荐理由:想压缩KV缓存又怕模型不安全?AnchorKV用软惩罚巧妙拒绝有害token,既省内存又防越狱,适合部署场景。原文
14:44IT之家(博客/媒体)Meta 本周证实,其 AI 支持工具存在安全漏洞,黑客通过越狱提示词诱导 Meta AI 生成 Instagram 密码重置链接并发送至攻击者邮箱,从而盗取账号。该漏洞从 4 月中旬持续到 5 月底,影响超过 2 万名用户,包括 Sephora 官方账号和美国太空军总军士长账号。问题出在账号恢复系统“High Touch Support”中,AI 未正确验证重置邮箱与账号持有人的关联。Meta 已于 5 月 31 日关闭该工具并注销受影响链接,目前无证据表明数据被访问。行业安全漏洞Meta AIInstagram账号盗取越狱攻击推荐理由:AI 客服的安全边界被黑客攻破,做 AI 应用安全或账号系统的团队值得关注——越狱攻击不再是理论威胁,而是真实损失。原文
14:03arXiv: DeepSeek@Dylan Marx, Marcel Dunaiski精选72°研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。论文越狱攻击低资源语言多轮对话安全漏洞LLM安全推荐理由:安全团队和LLM开发者需要警惕:多语言安全漏洞远未被堵住,低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。原文
10:07arXiv: Anthropic@Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit精选该论文揭示了LLM越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要指标并不稳定,导致已发表的ASR数值被系统性夸大且不可比较。研究发现,即使一个越狱提示在单次测试中达到80%的ASR,在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响,提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果,而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。论文LLM安全越狱攻击评估指标随机性CAS-eval/CAS-gen推荐理由:做LLM安全评估的团队会发现现有ASR指标不可靠——论文用数据证明80%的ASR在连续测试中可能只剩50%,CAS-eval和CAS-gen直接解决了这个评估和生成的不一致问题,做红队测试的建议点开。原文
19:11arXiv: Anthropic@Michael A. Riegler, Inga Strümke75°研究者开发了开源对抗测试框架swarm-attack,利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%,产生49个严重漏洞,而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞,表明此前需限制发布的能力可在零成本下复现,关键因素是系统框架本身补偿了小模型的推理限制。论文AI安全多智能体/协同越狱攻击漏洞发现开源/仓库推荐理由:该研究揭示了AI安全政策应聚焦系统而非模型本身,因为小模型通过协调框架即可实现高危险能力,这对当前以模型为中心的安全管控思路提出了重要挑战。原文