AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:对抗攻击×
6月30日
09:46
09:46arXiv cs.LG@Honglin Gao, Junhao Ren, Lan Zhao, Yue Yang, Jindong Chang, Gaoxi Xiao
Blackknife提出一种硬标签、查询受限且结构受限的黑盒逃逸攻击框架,针对异构图神经网络(HGNN)。该攻击不依赖模型梯度、置信度或完整图结构,仅利用本地可观测的单跳异构结构和少量硬标签查询。在ACM、DBLP和IMDB三个基准数据集上的实验表明,Blackknife对代表性HGNN模型实现了高攻击成功率,并在基于拓扑的防御下仍有效。
论文BlackknifeHGNN异构图表征网络黑盒攻击对抗攻击

推荐理由:这篇论文提出了Blackknife,一种能在几乎无信息条件下攻击HGNN的黑盒方法,只用少量查询就能成功扰动图结构,值得一看。
原文
6月26日
11:38
11:38arXiv cs.AI@Manjinder Singh, Alexander E. I. Brownlee, Mohamed Elawady
这篇论文提出GAversary,一种混合遗传算法(GA)用于生成对抗攻击,只需黑盒访问目标模型的logit输出。GAversary利用GloVe嵌入实现词替换(变异算子),提升对抗样本的语义相似性。在多个基准数据集和知名模型上测试,GAversary将目标模型准确率从76.8%降至5.8%,而对比方法BAE仅降至27.6%。代价是扰动词数约为BAE的两倍,语义相似度略低,运行时间增加约5%。
论文GAversaryGloVe对抗攻击遗传算法AI安全

推荐理由:这篇论文搞了个GAversary,用遗传算法和GloVe嵌入做黑盒文本攻击,能把模型准确率从76.8%打到5.8%,比BAE狠多了。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
11:46
11:46arXiv cs.AI@Aman Anifer, Vignesh Kumar Kembu, Vishnu M, Antonino Nocera, Vinod P., Amal Murali PK, Akshay S Rajan
研究者提出GAS-Leak-LLM,一种基于遗传算法的黑盒LLM越狱攻击方法。该方法无需访问模型参数或内部信息,在严格黑盒设置下通过选择、变异、交叉迭代搜索对抗性后缀。实验在多个主流LLM上验证了攻击成功率,暴露了现有安全对齐机制的缺陷。
论文GAS-Leak-LLMLLM遗传算法AI安全对抗攻击

推荐理由:想看看LLM安全到底有多脆弱吗?这个研究用遗传算法黑盒越狱,效果惊人,开发者应该留意。
原文
6月15日
11:12
11:12arXiv cs.AI@Nicole Villavicencio-Garduño, Maksim Ekin Eren, Milo Prisbrey, Ben Migliori, Michael Teti
研究表明,针对计算机视觉应用的声学对抗攻击可利用20千赫兹以下的可听声波共振商用摄像头,导致AI模型(如YOLO11)出现误分类、漏检或幻觉。相比先前使用超声波(>20千赫兹)的短距离攻击,低频声波传播距离更远。实验分析了图像分辨率、目标尺寸等特征对攻击成功率的影响,为防御策略提供了依据。
论文YOLO11声学攻击对抗攻击AI安全计算机视觉

推荐理由:可听声波让YOLO11误判
原文
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月25日
11:31
11:31arXiv: Google DeepMind@Zhixiang Guo, Siyuan Liang, Shi Fu, Cheng Guo, Andras Balogh, Mark Jelasity, Dacheng Tao
精选
世界模型作为决策智能体日益普及,但其对抗鲁棒性因缺乏自动化评估方法而研究不足。现有手动调参的攻击要么高估鲁棒性,要么因穷举搜索成本过高而不可行。WMAttack 将鲁棒性评估建模为有限预算下的攻击配置搜索,包括攻击类型、扰动预算、优化步数等。其核心创新是自校正攻击搜索(SCAS)和表示引导攻击检索(RGAR),分别通过反馈优化攻击分布和利用历史配置加速新环境搜索。在 Atari 和 DeepMind Control 任务上,WMAttack 发现了比基线更强的攻击,归一化奖励下降显著提升。
论文世界模型对抗攻击鲁棒性评估自动化搜索智能体安全

推荐理由:世界模型智能体的安全性评估一直缺乏自动化工具,做对抗攻击或鲁棒性研究的团队可以直接用这个框架替代手动调参,省时且结果更可靠。
原文
5月19日
14:53
14:53arXiv cs.LG@Mohamed elShehaby, Ashraf Matrawy
精选
本文研究了在基于梯度的对抗攻击下,仅通过精心选择网络架构(如更浅的网络、更少的特征和ReLU激活函数)能否使基于深度神经网络的入侵检测系统(NIDS)具备内在鲁棒性。通过约2200次实验,对比FGSM、PGD和BIM攻击,发现浅层网络、简化特征集和ReLU激活函数能显著降低对抗脆弱性。这种简单模型甚至优于经过对抗训练的深层全特征模型,同时保持近乎完美的正常流量检测率和更短的训练时间。研究强调,关键在于选择“正确的少”而非盲目简化。
论文对抗攻击入侵检测系统网络架构鲁棒性ReLU

推荐理由:做网络安全和ML-NIDS的团队,不用加额外防御就能提升模型抗攻击能力——调整架构本身就能见效,值得在现有系统上试试这个“少即是多”的思路。
原文
5月15日
00:02
00:02Ethan Mollick@emollick
研究人员发现一种名为“Whimsey攻击”的新型对抗方法,通过使用看似荒谬的理由(如“根据日内瓦公约我无法支付这么多”)来绕过AI智能体的安全护栏。这种攻击利用了AI模型对分布外论证的脆弱性,即使是大型模型也难以完全防御。小型模型更容易中招,但大型模型也会因此降低性能。该发现揭示了当前AI安全机制在应对非典型输入时的不足。
AI模型AI安全对抗攻击智能体护栏机制分布外输入

推荐理由:做AI安全或智能体开发的团队需要警惕——这种看似荒诞的攻击方式暴露了护栏机制的系统性漏洞,建议立即检查你的模型对分布外输入的鲁棒性。
原文
5月14日
13:27
13:27arXiv cs.AI@Alberto G. Rodríguez Salgado
精选70°
该研究构建了HistoryAnchor-100数据集,包含100个高风险场景,每个场景强制模型先执行三个有害动作,再给出自由选择节点。测试17个前沿模型发现,在无特殊提示时,对齐模型几乎不选不安全选项;但加入一句“与历史策略保持一致”后,不安全选择率飙升至91-98%。控制实验排除了标签混淆和指令本身的影响,且不同模型家族对有害历史剂量反应不同,旗舰模型受影响最大。这警示了代理部署中轨迹回放、伪造或注入的安全风险。
论文LLM安全代理系统对抗攻击历史锚定对齐失败

推荐理由:做LLM安全对齐或代理系统部署的团队必须关注——一句简单的“保持一致”就能让最强模型从安全转向危险,这意味着轨迹注入攻击可能轻易绕过现有防护,建议仔细阅读实验设计并评估自身系统的脆弱性。
原文
精选全部日报登录