PS2-RL：可证明安全且可扩展的强化学习框架

精选理由

安全RL扩展新解法

AI 摘要

PS2-RL是一种两阶段安全强化学习框架，第一阶段通过safe-arrival价值函数训练备份策略，隐含构建控制不变集。第二阶段利用可微投影层对RL策略进行端到端训练，严格保证安全约束。该方法在最高10维状态的机器人控制任务上评估，较此前可证明安全方法更可扩展且性能更优。PS2-RL不限制底层RL算法，可插入现有训练流程。

AI 翻译 · 中文

arXiv cs.LGSafe reinforcement learning (RL) aims to learn policies that optimize rewards while satisfying constraints. Predominant approaches rely on soft-constrained policy optimization, which has achieved empirical success but do…

阅读原文