07:44orange.ai@oran_ge86°OpenAI发现对齐大模型时存在涌现失调现象,即坏行为会泛化。他们反向实验用RL训练模型诚实、谦逊、可纠正等特质,仅混入小部分此类数据。结果在训练领域内模型变得更诚实透明;在44个独立评测(未见过)中,欺骗、谄媚、有害建议等行为全面下降,即使只用健康数据训练,非健康领域也受益。模型在对抗性提示和恶意微调下更坚韧,正常指令仍可听从。论文OpenAIRL涌现失调对齐AI安全10 个信源在谈推荐理由:OpenAI这篇论文反直觉:用RL教模型做好事,坏行为自己就减少了。实验覆盖44个新场景,效果还抗攻击。值得一看。原文