13:00arXiv: Anthropic@Galip Tolga Erdem精选72°这是首个大规模实证研究,测量了LLM在重复渗透测试中的行为一致性。研究对4个模型(Claude Sonnet 4、Gemini 2.5 Flash-Lite、GPT-4o-mini、qwen2.5-coder:14b)各进行100次攻击,目标为固定蜜罐(含OWASP Juice Shop等脆弱服务)。结果显示,Gemini 2.5 Flash-Lite成功率最高(85%),Claude因API故障中断39次但仍达61%,qwen仅25%且主要因过早完成失败。模型失败模式各异:Claude受API截断影响,qwen过早终止,GPT-4o-mini耗尽迭代预算。跨模型成功率差异显著(p<0.001),且首次利用时间集中在15-30秒内。论文LLM安全渗透测试攻击一致性模型对比红队测试推荐理由:这项研究揭示了LLM作为攻击者的行为规律和可靠性差异,做AI安全评估或红队测试的团队值得关注——它告诉你不同模型在真实攻击场景下的稳定性和失败模式,直接指导模型选型和防御策略。原文
19:11arXiv cs.AI@Pedro Conde, Henrique Branquinho, Valerio Mazzone, Bruno Mendes, André Baptista, Nuno Moniz现有AI渗透测试智能体评估多基于简化场景和预定义任务(如夺旗、远程代码执行),难以反映真实渗透测试的复杂性和开放性。本文提出新评估协议,从任务完成转向已验证漏洞发现,结合结构化真实数据与LLM语义匹配、二分图消歧等方法,支持多攻击面、多漏洞类别的复杂目标评估。该协议还包含效率指标、随机智能体重复评估及可持续实验缩减套件,旨在提供更贴近实战的智能体性能比较。为保障可复现性,已开源专家标注数据和代码。论文AI安全渗透测试智能体评估安全自动化推荐理由:该协议填补了AI渗透测试智能体从受限benchmark到真实场景评估的空白,为红队工具选型和研发提供更可靠的参考标准。原文