红队测试 · AI 话题观测

§ 01综述

红队测试是指通过模拟攻击或对抗性手段来评估AI系统安全性与鲁棒性的方法，当前已成为大模型安全验证的核心环节。2026年7月，OpenAI推出的GPT-Red自动化红队模型以84%胜率击败人类红队（人类仅13%），标志着AI自主发现自身漏洞的能力首次显著超越人工。

红队测试近期进展

OpenAI 详解 GPT-Red：自动红队模型以84%胜率击败人类：GPT-Red通过自我对弈生成对抗性提示，在提示注入测试中胜率84%远超人类13%，该模型已内部部署并用于强化GPT系列安全性。

AHA：自动化红队测试发现Claude Code和Codex的智能体漏洞：2026年7月arXiv论文提出AHA框架，自动化红队测试识别出Claude Code和Codex在工具调用场景中的多个高危漏洞，证明自动化方法能覆盖人类测试遗漏的复杂攻击面。

AdvGRPO：用GRPO实现语言模型自适应红队攻防协同训练：2026年6月研究将强化学习（GRPO）引入红队测试，实现攻击策略与防御策略的协同演化，在多个基准上使模型鲁棒性提升约40%。

当前焦点与观察点

红队测试正从人工主导转向AI自动化，GPT-Red等系统展示了更高效率，但也引发争议：AI红队可能发现人类无法理解的漏洞，导致修复门槛提高。同时，制度性红队测试研究（如arXiv论文2607.07695）强调部署规则比单纯模型防御更能保障多智能体系统安全。另一个趋势是红队测试与持续监控结合，简单阈值报警器（arXiv 2607.02510）即可媲美复杂方法，表明轻量级方案仍有实用价值。整体上，红队测试正从“一次性评估”演变为“持续对抗训练”的闭环，但如何平衡自动化深度与人类监督仍是核心挑战。

§ 02相关报道10 条在档

§ 03邻近话题