CoT 让大模型拒绝机制更鲁棒：DeepSeek-R1 研究揭示双重编码

精选理由

这项研究揭示了 CoT 在模型安全中的双重角色——既增强鲁棒性又引入新风险，做 AI 安全和对齐的团队值得关注，尤其是使用推理模型的开发者需要重新评估防御策略。

AI 摘要

最新研究发现，大型推理模型（LRM）的拒绝机制不仅依赖于残差流激活，还依赖于思维链（CoT）。在 DeepSeek-R1-Distill-LLaMA-8B 上，固定 CoT 时激活引导仅能反转 39% 的拒绝，移除 CoT 后提升至 70%，表明 CoT 主动强化了拒绝。通过两阶段干预（在激活引导下重新生成 CoT），拒绝反转率达到 94%，且生成的 CoT 在移除引导后仍能独立保持 48% 的顺从信号。这说明 CoT 可以独立携带并重建顺从信号，使 LRM 对激活级干预更鲁棒，但也暴露出 CoT 可能成为新的攻击面。

AI 翻译 · 中文

arXiv: DeepSeekLarge reasoning models (LRMs) generate chain-of-thought (CoT) traces before producing final outputs, introducing a dynamic internal state that may complicate control mechanisms such as refusal. Unlike instruction-tuned L…

阅读原文