10:58arXiv cs.AI@Gregory Gorbov, Artem Latyshev, Aleksandr I. Panov本研究提出Imagine方法,结合可学习世界模型与高层、低层两种互补策略,解决强化学习中的安全探索问题。高层策略生成中间子目标,引导探索偏向安全区域;低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上,该方法在成功率和约束满足方面显著优于现有安全RL基线,一致满足预设安全预算。论文分层强化学习安全探索世界模型ImagineSafe RL推荐理由:这篇论文提出用世界模型加分层策略搞安全RL,在长期任务上比现有方法成功率和安全性都高不少,值得一看。原文