Imagine：分层强化学习中的安全保证方法

精选理由

这篇论文提出用世界模型加分层策略搞安全RL，在长期任务上比现有方法成功率和安全性都高不少，值得一看。

AI 摘要

本研究提出Imagine方法，结合可学习世界模型与高层、低层两种互补策略，解决强化学习中的安全探索问题。高层策略生成中间子目标，引导探索偏向安全区域；低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上，该方法在成功率和约束满足方面显著优于现有安全RL基线，一致满足预设安全预算。

AI 翻译 · 中文

arXiv cs.AIThis work investigates the safe exploration problem in reinforcement learning, where an agent must maximize cumulative performance while simultaneously satisfying safety constraints. This challenge becomes even more pron…

阅读原文