AdvGRPO：用GRPO实现语言模型自适应红队攻防协同训练

精选理由

做AI安全对齐的团队终于有了一个稳定的GRPO攻防协同训练方案，能同时提升攻击发现能力和防御鲁棒性，建议做红队测试的开发者直接参考。

AI 摘要

本文提出AdvGRPO框架，解决了GRPO在攻防协同训练中不稳定的问题。通过密集多通道奖励和分离优势归一化，使攻击者和防御者模型交替更新，从单轮攻击逐步过渡到多轮闭环攻击。实验表明，该方法能生成高效且可迁移的攻击，协同训练的防御者在安全基准上优于基线。这项工作为语言模型的安全对齐提供了新的自适应红队方法。

AI 翻译 · 中文

arXiv cs.AIAI red teaming must continually adapt to evolving attackers and defenders. Reinforcement learning offers a promising approach to discovering novel attacks, and co-training methods can produce more robust defenders in tan…

阅读原文