精选理由
OpenAI 这篇论文很有意思:用 RL 给模型‘教好’会泛化到所有领域,而且抗忽悠能力变强了,像给人打了一剂道德疫苗。
OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。
AI 翻译 · 中文
OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。
This tweet has been promoted to the English, Japanese, and Korean worlds Feel the power of new multilingual recommendation algorithms! Orange AI @oran_ge OpenAI 发布的新论文太有趣了,有点探索人性底层原理的意味。 业界研究发现在对齐大模型的时候,有个很糟糕的现象叫 emergen…