AgentTrust: 为AI智能体动作自进化的信任层

精选理由

AI智能体安全是当前最棘手的工程问题之一，AgentTrust 用自进化信任层解决了规则无法覆盖语义攻击的痛点，做智能体安全或自动化运维的团队可以直接参考其架构设计。

AI 摘要

AgentTrust 提出了一种针对AI智能体动作的信任层，能根据威胁类型（词法或语义）决定是否允许、警告、阻止或升级操作。词法威胁可通过确定性规则处理，而语义威胁（如表面相似但意图不同的动作）则依赖LLM判断。该系统通过自学习机制，在语义攻击为主的语料上，将规则准确率从48%提升至83.6-85.2%，且误报率极低。AgentTrust v2 采用双存储系统：对词法威胁蒸馏出确定性规则以降低成本，对语义威胁使用带验证的RAG记忆，将语义准确率提升13个百分点。在45000个动作的端到端回放中，LLM调用率从50%降至44%，准确率从71%升至80%，且未误阻任何良性动作。

AI 翻译 · 中文

arXiv cs.AIAI agents increasingly take consequential actions -- shell commands, cloud operations, and arbitrary tool-calls -- so a trust layer must decide, per action, whether to allow, warn, block, or escalate. We argue that the r…

阅读原文