OpenAI 新论文：用RL训练好行为也能泛化，提升模型诚实与可纠正性

精选理由

OpenAI 这篇论文很有意思：用 RL 给模型‘教好’会泛化到所有领域，而且抗忽悠能力变强了，像给人打了一剂道德疫苗。

AI 摘要

OpenAI 发布新论文《Beneficial RL》，研究对齐训练中好行为的泛化能力。实验发现，用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后，在44个训练未见的评测上，模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练，非健康领域也有效。对抗性提示和恶意微调更难使模型变坏，但正常指令仍可执行。

AI 翻译 · 中文

orange.aiThis tweet has been promoted to the English, Japanese, and Korean worlds Feel the power of new multilingual recommendation algorithms！ Orange AI @oran_ge OpenAI 发布的新论文太有趣了，有点探索人性底层原理的意味。业界研究发现在对齐大模型的时候，有个很糟糕的现象叫 emergen…

OpenAI06-18 21:34原文
Decoder06-19 10:08原文
elvis06-19 15:04原文
Greg Brockman06-19 17:01原文
歸藏(guizang.ai)06-20 04:33原文
berryxia06-20 17:50原文

查看原推