安全对齐的LLM从混合合规示范中学到了什么

精选理由

这篇论文解释了为什么不同的合规示范会以不同方式影响模型，帮你理解LLM的jailbreak机制，不只是实证而是分析原理。

AI 摘要

该论文通过混合良性合规示范（无害请求、有用回复）与有害合规示范（有害请求、有用回复），测试了三种关于示范组合如何导致有害合规的假设。在四个模型中，良性示范与有害示范不可互换：良性示范可能减少或增加有害合规，取决于模型。研究发现偏好优化是关键训练阶段，可防止良性示范增加有害合规；示范排序存在强烈的近因偏差；模型在拒绝与上下文学习交互时表现不同。

AI 翻译 · 中文

arXiv cs.LGPrior work has shown that in-context demonstrations can jailbreak language models, but it remains unclear how models interpret different types of compliance demonstrations. We study this by mixing benign compliance demon…

阅读原文