论文精选

LLM越狱攻击的随机性问题:CAS-eval与CAS-gen框架

The Great Pretender: A Stochasticity Problem in LLM Jailbreak

精选理由

做LLM安全评估的团队会发现现有ASR指标不可靠——论文用数据证明80%的ASR在连续测试中可能只剩50%,CAS-eval和CAS-gen直接解决了这个评估和生成的不一致问题,做红队测试的建议点开。

AI 摘要

该论文揭示了LLM越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要指标并不稳定,导致已发表的ASR数值被系统性夸大且不可比较。研究发现,即使一个越狱提示在单次测试中达到80%的ASR,在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响,提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果,而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。

AI 翻译 · 中文

该论文揭示了LLM越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要指标并不稳定,导致已发表的ASR数值被系统性夸大且不可比较。研究发现,即使一个越狱提示在单次测试中达到80%的ASR,在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响,提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果,而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。

arXiv: Anthropic"Oh-Oh, yes, I'm the great pretender. Pretending that I'm doing well. My need is such, I pretend too much..." summarizes the state in the area of jailbreak creation and evaluation. You find this method to generate advers