AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:智能体评估×
5月12日
19:11
arXiv cs.AI@Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz
55
现有AI渗透测试智能体评估多基于简化场景和预定义任务(如夺旗、远程代码执行),难以反映真实渗透测试的复杂性和开放性。本文提出新评估协议,从任务完成转向已验证漏洞发现,结合结构化真实数据与LLM语义匹配、二分图消歧等方法,支持多攻击面、多漏洞类别的复杂目标评估。该协议还包含效率指标、随机智能体重复评估及可持续实验缩减套件,旨在提供更贴近实战的智能体性能比较。为保障可复现性,已开源专家标注数据和代码。
论文AI安全渗透测试智能体评估安全自动化

推荐理由:该协议填补了AI渗透测试智能体从受限benchmark到真实场景评估的空白,为红队工具选型和研发提供更可靠的参考标准。