语言防火墙:几何作为多智能体系统路由的防御

Linguistic Firewall: Geometry as Defense in Multi-Agent Systems Routing

精选理由

这篇论文提出了 ANTAP,用代数投影代替代理描述做路由,把注入攻击成功率打到了接近零,比传统方法安全太多。

AI 摘要

ANTAP 是一种评估驱动的路由架构,通过主动能力测试取代代理的文本描述或嵌入代理。在实验中,ANTAP 对基于描述的注入攻击的攻击成功率(ASR)接近 0%,而基于描述的路由基线 ASR 达到 67.3% 以上。对于自适应嵌入攻击,ANTAP 的 ASR 比基于嵌入的基线降低 20%,且设计上对描述操控具有鲁棒性。该架构建立“语言防火墙”,使基于元数据的攻击无法表达。

AI 翻译 · 中文

ANTAP 是一种评估驱动的路由架构,通过主动能力测试取代代理的文本描述或嵌入代理。在实验中,ANTAP 对基于描述的注入攻击的攻击成功率(ASR)接近 0%,而基于描述的路由基线 ASR 达到 67.3% 以上。对于自适应嵌入攻击,ANTAP 的 ASR 比基于嵌入的基线降低 20%,且设计上对描述操控具有鲁棒性。该架构建立“语言防火墙”,使基于元数据的攻击无法表达。

arXiv cs.AIThe rapid integration of Large Language Models (LLMs) has driven the evolution of Multi-Agent Systems (MAS), where specialized agents collaborate to execute complex workflows. Effective orchestration in these environment