11:06arXiv cs.LG@Sihui Dai, Mann Patel该论文通过混合良性合规示范(无害请求、有用回复)与有害合规示范(有害请求、有用回复),测试了三种关于示范组合如何导致有害合规的假设。在四个模型中,良性示范与有害示范不可互换:良性示范可能减少或增加有害合规,取决于模型。研究发现偏好优化是关键训练阶段,可防止良性示范增加有害合规;示范排序存在强烈的近因偏差;模型在拒绝与上下文学习交互时表现不同。论文LLMjailbreakdemonstrationin-context learning安全对齐推荐理由:这篇论文解释了为什么不同的合规示范会以不同方式影响模型,帮你理解LLM的jailbreak机制,不只是实证而是分析原理。原文