精选理由
这篇论文提出了一个聪明的思路:用误导性回复代替直接拒绝,让AI自动攻击更难判断是否成功。实验显示CMPE方法在PAIR和GPTFuzz上几乎完全阻挡了越狱攻击,做AI安全的朋友值得一看。
该论文通过概率模型分析了针对智能体AI系统的攻击-防御场景,发现传统的检测-拦截防御在查询预算充足时,攻击成功率(ASR)可趋近于1,因为可预测的拒绝为攻击自动搜索提供了有效反馈。作者提出检测-误导策略,通过受控但非操作性的响应诱导攻击者判断器产生假阳性错误,实现有界的渐进ASR。具体实现方法CMPE(Contextual Misdirection via Progressive Engagement)在jailbreak基准上,将ASR上限估计降低两个数量级,并在端到端PAIR和GPTFuzz攻击运行中几乎消除了验证成功的攻击。
AI 翻译 · 中文
该论文通过概率模型分析了针对智能体AI系统的攻击-防御场景,发现传统的检测-拦截防御在查询预算充足时,攻击成功率(ASR)可趋近于1,因为可预测的拒绝为攻击自动搜索提供了有效反馈。作者提出检测-误导策略,通过受控但非操作性的响应诱导攻击者判断器产生假阳性错误,实现有界的渐进ASR。具体实现方法CMPE(Contextual Misdirection via Progressive Engagement)在jailbreak基准上,将ASR上限估计降低两个数量级,并在端到端PAIR和GPTFuzz攻击运行中几乎消除了验证成功的攻击。
Agentic AI systems increasingly rely on language-model components to interpret instructions, process external data, invoke tools, and coordinate with other agents. These capabilities make prompt-injection and jailbreak a…