精选理由
OpenAI发了篇新论文,研究怎么让AI在超出训练场景的长期任务里也乖乖做好事,关心AI安全的朋友可以看看。
OpenAI发布新研究,旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域,并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性,论文名为《Beneficial RL》。研究通过强化学习框架,让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为,而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。
AI 翻译 · 中文
OpenAI发布新研究,旨在训练AI模型将有益和安全行为推广到训练范围之外的新领域,并在压力下维持。该方法聚焦于让模型具备广泛且持久的利他性,论文名为《Beneficial RL》。研究通过强化学习框架,让模型学会在更长、更高风险的任务中自主保持符合人类意图的行为,而不仅是拟合训练数据。相关论文和代码已发布在alignment.openai.com/beneficial-rl/。
As AI takes on longer, higher-stakes tasks, we want models to carry beneficial and safe behavior into new domains beyond their training—and maintain it under pressure. That’s the idea behind our new research on training …