语言防火墙：几何作为多智能体系统路由的防御

精选理由

这篇论文提出了 ANTAP，用代数投影代替代理描述做路由，把注入攻击成功率打到了接近零，比传统方法安全太多。

AI 摘要

ANTAP 是一种评估驱动的路由架构，通过主动能力测试取代代理的文本描述或嵌入代理。在实验中，ANTAP 对基于描述的注入攻击的攻击成功率（ASR）接近 0%，而基于描述的路由基线 ASR 达到 67.3% 以上。对于自适应嵌入攻击，ANTAP 的 ASR 比基于嵌入的基线降低 20%，且设计上对描述操控具有鲁棒性。该架构建立“语言防火墙”，使基于元数据的攻击无法表达。

AI 翻译 · 中文

arXiv cs.AIThe rapid integration of Large Language Models (LLMs) has driven the evolution of Multi-Agent Systems (MAS), where specialized agents collaborate to execute complex workflows. Effective orchestration in these environment…

阅读原文