SafeSteer：局部化策略蒸馏实现高效安全对齐

精选理由

SafeSteer 用极低成本（100 个样本）解决了安全对齐损害通用能力的痛点，做 LLM 安全或对齐的团队可以直接参考其局部化蒸馏方法，大幅减少数据依赖。

AI 摘要

大型语言模型（LLM）与人类价值观对齐时，往往会损害通用能力，即“对齐税”。现有方法通过平衡双重目标来缓解，但依赖大量通用数据或辅助奖励模型。SafeSteer 提出，由于安全特征在输出分布中天然稀疏，对齐应进行局部修改而非全局权衡。该方法通过激活引导构建安全教师模型，并开发安全令牌选择算法，在训练中仅对这些令牌施加反向 KL 惩罚，从而保留通用能力。实验表明，SafeSteer 在七个安全基准上取得强安全性能，同时在五个通用能力基准上仅轻微下降，且仅需 100 个有害样本，无需任何通用数据，对齐成本降低超过 99%。

AI 翻译 · 中文

arXiv cs.AIAligning Large Language Models (LLMs) with human values often degrades their general capabilities, termed the alignment tax. Existing methods mitigate this by balancing dual objectives, which heavily rely on massive gene…

阅读原文