现成人设向量可替代CAA减少模型谄媚行为

精选理由

做AI对齐和模型安全的研究者值得关注——用现成人设向量替代CAA，既减少谄媚又保持准确性，省去标注谄媚数据的麻烦。建议直接看代码和实验细节。

AI 摘要

研究发现，使用现成的“怀疑”或“审视”人设向量，可以将模型的谄媚行为（即盲目同意用户错误观点）减少到CAA（对比激活添加）效果的68%至98%，且不会在用户正确时牺牲准确性。与CAA不同，这些向量并非针对谄媚数据训练，而是来自通用角色扮演。此外，人设向量与谄媚方向在激活空间中几乎正交，表明谄媚更像是一种人设级属性而非单一可操控方向。研究还发现，向“顺从”人设引导并不会镜像增加谄媚。代码已开源。

AI 翻译 · 中文

arXiv cs.AIWe study the effect of different persona on \textbf{sycophancy}: model's agreement with users even when the user is incorrect. The standard mitigation, Contrastive Activation Addition (CAA), derives a steering direction …

阅读原文