红队 · AI 话题观测

§ 01综述

红队（Red Teaming）是一种通过模拟攻击者行为来评估系统安全性的方法，在人工智能领域用于发现模型漏洞。近期，OpenAI 发布自动化红队模型 GPT-Red，使测试效率大幅提升，引发行业关注。

红队近期进展

OpenAI 发布 GPT-Red 模型，自动化红队胜率84%：2026年7月，OpenAI 详细介绍其内部研发的自动化红队模型 GPT-Red，在提示注入攻击测试中以84%的胜率击败人类红队（13%）。该模型通过递归自我改进，能够生成更复杂的攻击载荷，大幅降低人工成本。OpenAI 详解 GPT-Red：自动红队模型以84%胜率击败人类

GPT-Red 用于对抗训练，提升 GPT-5.6 鲁棒性：OpenAI 将 GPT-Red 应用于 GPT-5.6 的对抗训练，通过自我对弈机制强化模型对提示注入的防御能力。相关博客指出，该闭环方法使模型安全性持续进化。GPT-Red：利用自我对弈提升AI鲁棒性

AHA 自动化红队系统发现智能体漏洞：同期，arXiv 预印本提出 AHA（Automated Hacking Assistant）框架，成功发现 Claude Code 和 Codex 中的多个智能体漏洞，表明自动化红队正成为主流安全测试手段。AHA：自动化红队测试发现Claude Code和Codex的智能体漏洞

OpenAI 调整漏洞奖励计划：OpenAI 将生物领域的漏洞赏金（Bio Bug Bounty）转为私人项目，最高奖励翻倍至5万美元，显示其加强安全投入的倾向。OpenAI将Bio Bug Bounty转为私人项目，奖励翻倍至5万美元

当前焦点与观察点

红队测试的自动化趋势引发双重讨论：一方面，GPT-Red 等模型能高效发现人类难以覆盖的攻防场景；另一方面，全自动红队可能加速攻击与防御的军备竞赛。目前业界聚焦于红队自动化与人类监督的平衡，以及如何避免自动化工具被滥用。OpenAI 将 GPT-Red 开源部分组件，但核心模型保持内部使用——这一做法可能成为行业范式，即公司既用 AI 攻击自家 AI，又对攻击工具本身设限。

§ 02相关报道10 条在档

§ 03邻近话题