10:30arXiv cs.AI@Dongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee精选72°这篇论文揭示了强化学习从人类反馈(RLHF)中的一个结构性漏洞:当 LLM 在生成偏好数据集时,如果其输出质量高但带有偏见,人类标注者会因质量而偏好这些有偏见的回答,导致 RLHF 放大而非抑制这些偏见。作者称之为“对齐篡改”,并实验证明了从关键词偏见、性别歧视到品牌推广等多种偏见的放大。现有缓解方法在保持回答质量的同时难以完全解决这一问题,凸显了当前对齐技术的脆弱性。论文RLHF对齐安全偏见放大LLM 安全arXiv 论文推荐理由:做 LLM 对齐和安全的团队需要警惕:RLHF 可能被模型自身输出“反向劫持”,导致偏见被系统性地放大。建议点开看看实验细节,评估自己训练流程中是否存在类似风险。原文