Safe Trigger: 触发大推理模型的潜在安全意识实现自适应安全

Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models

精选理由

这篇论文发现LRM自己就能识别风险,用SFT+DPO触发安全分析,让DeepSeek-R1的越狱成功率高降36%,还不用外部数据,挺实用的。

AI 摘要

论文Safe Trigger提出利用大推理模型(LRM)自身的潜在安全意识进行安全对齐,无需外部人工标注。该方法先使用监督微调(SFT)为不安全查询注入安全标签触发安全分析,对一般查询保持原响应实现自适应;再通过直接偏好优化(DPO)提升安全分析的稳定性。实验显示,DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均下降24.65%和36.72%,且通用性能几乎不受影响。

AI 翻译 · 中文

论文Safe Trigger提出利用大推理模型(LRM)自身的潜在安全意识进行安全对齐,无需外部人工标注。该方法先使用监督微调(SFT)为不安全查询注入安全标签触发安全分析,对一般查询保持原响应实现自适应;再通过直接偏好优化(DPO)提升安全分析的稳定性。实验显示,DeepSeek-R1-Distill-Llama-8B在有害和越狱基准上的攻击成功率(ASR)平均下降24.65%和36.72%,且通用性能几乎不受影响。

arXiv: DeepSeekWhile Large Reasoning Models (LRMs) excel at complex tasks, they remain highly vulnerable to sophisticated jailbreaks and direct harmful queries. To address this vulnerability, prior works depend heavily on external manu