00:21orange.ai@oran_ge73°OpenAI 发布新论文《Beneficial RL》,研究对齐训练中好行为的泛化能力。实验发现,用RL在对话数据上训练模型诚实、认知谦逊、可纠正等特质后,在44个训练未见的评测上,模型欺骗、谄媚、有害建议等行为均下降。仅用健康领域数据训练,非健康领域也有效。对抗性提示和恶意微调更难使模型变坏,但正常指令仍可执行。论文OpenAIRL对齐AI安全有益强化学习9 个信源在谈推荐理由:OpenAI 这篇论文很有意思:用 RL 给模型‘教好’会泛化到所有领域,而且抗忽悠能力变强了,像给人打了一剂道德疫苗。原文