安全对齐的LLM从混合合规示范中学到了什么

What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?

精选理由

这篇论文解释了为什么不同的合规示范会以不同方式影响模型,帮你理解LLM的jailbreak机制,不只是实证而是分析原理。

AI 摘要

该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。

AI 翻译 · 中文

该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。

arXiv cs.LGPrior work has shown that in-context demonstrations can jailbreak language models, but it remains unclear how models interpret different types of compliance demonstrations. We study this by mixing benign compliance demon