Imagine:分层强化学习中的安全保证方法

Imagine to Ensure Safety in Hierarchical Reinforcement Learning

精选理由

这篇论文提出用世界模型加分层策略搞安全RL,在长期任务上比现有方法成功率和安全性都高不少,值得一看。

AI 摘要

本研究提出Imagine方法,结合可学习世界模型与高层、低层两种互补策略,解决强化学习中的安全探索问题。高层策略生成中间子目标,引导探索偏向安全区域;低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上,该方法在成功率和约束满足方面显著优于现有安全RL基线,一致满足预设安全预算。

AI 翻译 · 中文

本研究提出Imagine方法,结合可学习世界模型与高层、低层两种互补策略,解决强化学习中的安全探索问题。高层策略生成中间子目标,引导探索偏向安全区域;低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上,该方法在成功率和约束满足方面显著优于现有安全RL基线,一致满足预设安全预算。

arXiv cs.AIThis work investigates the safe exploration problem in reinforcement learning, where an agent must maximize cumulative performance while simultaneously satisfying safety constraints. This challenge becomes even more pron