5月13日
19:12
arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song
精选75
ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。
推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。