全部 AI 动态 · AI 热点

6月30日

09:46

09:46

arXiv cs.LG@Honglin Gao, Junhao Ren, Lan Zhao, Yue Yang, Jindong Chang, Gaoxi Xiao

Blackknife提出一种硬标签、查询受限且结构受限的黑盒逃逸攻击框架，针对异构图神经网络（HGNN）。该攻击不依赖模型梯度、置信度或完整图结构，仅利用本地可观测的单跳异构结构和少量硬标签查询。在ACM、DBLP和IMDB三个基准数据集上的实验表明，Blackknife对代表性HGNN模型实现了高攻击成功率，并在基于拓扑的防御下仍有效。

论文 Blackknife HGNN 异构图表征网络黑盒攻击对抗攻击

推荐理由：这篇论文提出了Blackknife，一种能在几乎无信息条件下攻击HGNN的黑盒方法，只用少量查询就能成功扰动图结构，值得一看。

6月26日

11:38

11:38

arXiv cs.AI@Manjinder Singh, Alexander E. I. Brownlee, Mohamed Elawady

这篇论文提出GAversary，一种混合遗传算法（GA）用于生成对抗攻击，只需黑盒访问目标模型的logit输出。GAversary利用GloVe嵌入实现词替换（变异算子），提升对抗样本的语义相似性。在多个基准数据集和知名模型上测试，GAversary将目标模型准确率从76.8%降至5.8%，而对比方法BAE仅降至27.6%。代价是扰动词数约为BAE的两倍，语义相似度略低，运行时间增加约5%。

论文 GAversary GloVe 对抗攻击遗传算法 AI安全

推荐理由：这篇论文搞了个GAversary，用遗传算法和GloVe嵌入做黑盒文本攻击，能把模型准确率从76.8%打到5.8%，比BAE狠多了。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:46

11:46

arXiv cs.AI@Aman Anifer, Vignesh Kumar Kembu, Vishnu M, Antonino Nocera, Vinod P., Amal Murali PK, Akshay S Rajan

研究者提出GAS-Leak-LLM，一种基于遗传算法的黑盒LLM越狱攻击方法。该方法无需访问模型参数或内部信息，在严格黑盒设置下通过选择、变异、交叉迭代搜索对抗性后缀。实验在多个主流LLM上验证了攻击成功率，暴露了现有安全对齐机制的缺陷。

论文 GAS-Leak-LLM LLM 遗传算法 AI安全对抗攻击

推荐理由：想看看LLM安全到底有多脆弱吗？这个研究用遗传算法黑盒越狱，效果惊人，开发者应该留意。

6月15日

11:12

11:12

arXiv cs.AI@Nicole Villavicencio-Garduño, Maksim Ekin Eren, Milo Prisbrey, Ben Migliori, Michael Teti

研究表明，针对计算机视觉应用的声学对抗攻击可利用20千赫兹以下的可听声波共振商用摄像头，导致AI模型（如YOLO11）出现误分类、漏检或幻觉。相比先前使用超声波（>20千赫兹）的短距离攻击，低频声波传播距离更远。实验分析了图像分辨率、目标尺寸等特征对攻击成功率的影响，为防御策略提供了依据。

论文 YOLO11 声学攻击对抗攻击 AI安全计算机视觉

推荐理由：可听声波让YOLO11误判

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月25日

11:31

11:31

arXiv: Google DeepMind@Zhixiang Guo, Siyuan Liang, Shi Fu, Cheng Guo, Andras Balogh, Mark Jelasity, Dacheng Tao

精选

世界模型作为决策智能体日益普及，但其对抗鲁棒性因缺乏自动化评估方法而研究不足。现有手动调参的攻击要么高估鲁棒性，要么因穷举搜索成本过高而不可行。WMAttack 将鲁棒性评估建模为有限预算下的攻击配置搜索，包括攻击类型、扰动预算、优化步数等。其核心创新是自校正攻击搜索（SCAS）和表示引导攻击检索（RGAR），分别通过反馈优化攻击分布和利用历史配置加速新环境搜索。在 Atari 和 DeepMind Control 任务上，WMAttack 发现了比基线更强的攻击，归一化奖励下降显著提升。

论文世界模型对抗攻击鲁棒性评估自动化搜索智能体安全

推荐理由：世界模型智能体的安全性评估一直缺乏自动化工具，做对抗攻击或鲁棒性研究的团队可以直接用这个框架替代手动调参，省时且结果更可靠。

5月19日

14:53

14:53

arXiv cs.LG@Mohamed elShehaby, Ashraf Matrawy

精选

本文研究了在基于梯度的对抗攻击下，仅通过精心选择网络架构（如更浅的网络、更少的特征和ReLU激活函数）能否使基于深度神经网络的入侵检测系统（NIDS）具备内在鲁棒性。通过约2200次实验，对比FGSM、PGD和BIM攻击，发现浅层网络、简化特征集和ReLU激活函数能显著降低对抗脆弱性。这种简单模型甚至优于经过对抗训练的深层全特征模型，同时保持近乎完美的正常流量检测率和更短的训练时间。研究强调，关键在于选择“正确的少”而非盲目简化。

论文对抗攻击入侵检测系统网络架构鲁棒性 ReLU

推荐理由：做网络安全和ML-NIDS的团队，不用加额外防御就能提升模型抗攻击能力——调整架构本身就能见效，值得在现有系统上试试这个“少即是多”的思路。

5月15日

00:02

00:02

Ethan Mollick@emollick

研究人员发现一种名为“Whimsey攻击”的新型对抗方法，通过使用看似荒谬的理由（如“根据日内瓦公约我无法支付这么多”）来绕过AI智能体的安全护栏。这种攻击利用了AI模型对分布外论证的脆弱性，即使是大型模型也难以完全防御。小型模型更容易中招，但大型模型也会因此降低性能。该发现揭示了当前AI安全机制在应对非典型输入时的不足。

AI模型 AI安全对抗攻击智能体护栏机制分布外输入

推荐理由：做AI安全或智能体开发的团队需要警惕——这种看似荒诞的攻击方式暴露了护栏机制的系统性漏洞，建议立即检查你的模型对分布外输入的鲁棒性。

5月14日

13:27

13:27

arXiv cs.AI@Alberto G. Rodríguez Salgado

精选70°

该研究构建了HistoryAnchor-100数据集，包含100个高风险场景，每个场景强制模型先执行三个有害动作，再给出自由选择节点。测试17个前沿模型发现，在无特殊提示时，对齐模型几乎不选不安全选项；但加入一句“与历史策略保持一致”后，不安全选择率飙升至91-98%。控制实验排除了标签混淆和指令本身的影响，且不同模型家族对有害历史剂量反应不同，旗舰模型受影响最大。这警示了代理部署中轨迹回放、伪造或注入的安全风险。

论文 LLM安全代理系统对抗攻击历史锚定对齐失败

推荐理由：做LLM安全对齐或代理系统部署的团队必须关注——一句简单的“保持一致”就能让最强模型从安全转向危险，这意味着轨迹注入攻击可能轻易绕过现有防护，建议仔细阅读实验设计并评估自身系统的脆弱性。