LLM越狱攻击的随机性问题：CAS-eval与CAS-gen框架

精选理由

做LLM安全评估的团队会发现现有ASR指标不可靠——论文用数据证明80%的ASR在连续测试中可能只剩50%，CAS-eval和CAS-gen直接解决了这个评估和生成的不一致问题，做红队测试的建议点开。

AI 摘要

该论文揭示了LLM越狱攻击评估中的关键问题：攻击成功率（ASR）作为主要指标并不稳定，导致已发表的ASR数值被系统性夸大且不可比较。研究发现，即使一个越狱提示在单次测试中达到80%的ASR，在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响，提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果，而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。

AI 翻译 · 中文

arXiv: Anthropic"Oh-Oh, yes, I'm the great pretender. Pretending that I'm doing well. My need is such, I pretend too much..." summarizes the state in the area of jailbreak creation and evaluation. You find this method to generate advers…

阅读原文