全部 AI 动态 · AI 热点

6月19日

11:11

11:11

arXiv cs.AI@Reza Soosahabi, Vivek Namsani

该论文通过概率模型分析了针对智能体AI系统的攻击-防御场景，发现传统的检测-拦截防御在查询预算充足时，攻击成功率(ASR)可趋近于1，因为可预测的拒绝为攻击自动搜索提供了有效反馈。作者提出检测-误导策略，通过受控但非操作性的响应诱导攻击者判断器产生假阳性错误，实现有界的渐进ASR。具体实现方法CMPE（Contextual Misdirection via Progressive Engagement）在jailbreak基准上，将ASR上限估计降低两个数量级，并在端到端PAIR和GPTFuzz攻击运行中几乎消除了验证成功的攻击。

论文 CMPE PAIR GPTFuzz Agentic AI AI安全

推荐理由：这篇论文提出了一个聪明的思路：用误导性回复代替直接拒绝，让AI自动攻击更难判断是否成功。实验显示CMPE方法在PAIR和GPTFuzz上几乎完全阻挡了越狱攻击，做AI安全的朋友值得一看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？