精选理由
这篇论文解释了为什么不同的合规示范会以不同方式影响模型,帮你理解LLM的jailbreak机制,不只是实证而是分析原理。
该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。
AI 翻译 · 中文
该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。
Prior work has shown that in-context demonstrations can jailbreak language models, but it remains unclear how models interpret different types of compliance demonstrations. We study this by mixing benign compliance demon…