全部 AI 动态 · AI 热点

6月29日

10:08

arXiv cs.AI@Yanchen Yin, Dongqi Han, Linghui Li

该研究揭示越狱攻击并非消除所有安全特征，而是选择性抑制早期层的Adversarially Compromised Heads (ACHs)，而中间层的Safety-Aligned Heads (SAHs)保持鲁棒激活。消融实验表明，抑制少量ACHs即可在正常拒绝的输入上诱发出越狱行为，而移除SAHs会显著削弱中间层的安全激活。此外，通过直接读取这些持久激活信号（无需训练）即可获得与强对抗鲁棒性相当的聚合检测性能。

论文越狱攻击注意力头 LLM安全对抗鲁棒性鲁棒有害特征

推荐理由：这篇论文用注意力头机制解释了越狱攻击无法完全消除安全特征，还提出一种无需训练的检测方法，效果不输传统对抗训练。

原文

6月17日

10:44

arXiv cs.AI@Nicola Franco

Anthropic发布了对两个前沿模型Fable 5和Opus 4.8的红队研究。研究使用HackAgent框架，对7,826个有害意图进行自动化越狱攻击，覆盖十类危害。最强自适应树状攻击在Opus 4.8上成功率达11.5%，而在Fable 5上仅为6.1%。两个模型分别产生了1,620和702个经专家确认的有害输出。结论表明，即使经过充分测试的前沿模型仍可在持续自动化攻击下被可靠破解。

论文 Anthropic Fable 5 Opus 4.8 AI安全越狱攻击

推荐理由：Anthropic公开了Fable 5和Opus 4.8的对抗性测试结果：树状攻击破Opus 4.8的11.5%，但Fable 5更抗打，仅6.1%。别被整体数字骗了，残存风险不小。

原文

10:18

arXiv cs.LG@Ning Ni, Yingjie Lao

AnchorKV是一种即插即用的KV缓存压缩方法，通过构建离线安全锚点来偏置token保留分数，使其远离有害提示对应的键空间方向。该方法采用差异均值表征工程技术，在逐层键投影空间中提取拒绝方向，并引入软惩罚token选择规则。在保持压缩效率的同时，AnchorKV能显著提升LLM的安全对齐能力，抵御越狱攻击。实验表明，在适度牺牲少量性能的情况下，该方法可有效降低有害输出率。

AI模型 AnchorKV KV缓存压缩越狱攻击安全对齐

推荐理由：想压缩KV缓存又怕模型不安全？AnchorKV用软惩罚巧妙拒绝有害token，既省内存又防越狱，适合部署场景。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

14:44

14:44IT之家（博客/媒体）

Meta 本周证实，其 AI 支持工具存在安全漏洞，黑客通过越狱提示词诱导 Meta AI 生成 Instagram 密码重置链接并发送至攻击者邮箱，从而盗取账号。该漏洞从 4 月中旬持续到 5 月底，影响超过 2 万名用户，包括 Sephora 官方账号和美国太空军总军士长账号。问题出在账号恢复系统“High Touch Support”中，AI 未正确验证重置邮箱与账号持有人的关联。Meta 已于 5 月 31 日关闭该工具并注销受影响链接，目前无证据表明数据被访问。

行业安全漏洞 Meta AI Instagram 账号盗取越狱攻击

推荐理由：AI 客服的安全边界被黑客攻破，做 AI 应用安全或账号系统的团队值得关注——越狱攻击不再是理论威胁，而是真实损失。

原文

5月19日

14:03

arXiv: DeepSeek@Dylan Marx, Marcel Dunaiski

精选72°

研究发现，使用低资源非洲语言（如南非荷兰语、斯瓦希里语、科萨语和祖鲁语）进行多轮对话，可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效，但多轮对话在英语上达到52.7%-83.6%的有害响应率，非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高，且翻译质量是决定越狱成功的关键因素——翻译质量越差，越狱率越低。

论文越狱攻击低资源语言多轮对话安全漏洞 LLM安全

推荐理由：安全团队和LLM开发者需要警惕：多语言安全漏洞远未被堵住，低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。

原文

5月15日

10:07

arXiv: Anthropic@Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit

精选

该论文揭示了LLM越狱攻击评估中的关键问题：攻击成功率（ASR）作为主要指标并不稳定，导致已发表的ASR数值被系统性夸大且不可比较。研究发现，即使一个越狱提示在单次测试中达到80%的ASR，在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响，提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果，而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。

论文 LLM安全越狱攻击评估指标随机性 CAS-eval/CAS-gen

推荐理由：做LLM安全评估的团队会发现现有ASR指标不可靠——论文用数据证明80%的ASR在连续测试中可能只剩50%，CAS-eval和CAS-gen直接解决了这个评估和生成的不一致问题，做红队测试的建议点开。

原文

5月12日

19:11

arXiv: Anthropic@Michael A. Riegler, Inga Strümke

75°

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

论文 AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由：该研究揭示了AI安全政策应聚焦系统而非模型本身，因为小模型通过协调框架即可实现高危险能力，这对当前以模型为中心的安全管控思路提出了重要挑战。

原文