11:10arXiv cs.LG@Kai S. Yun, Zeyang Li, Navid AzizanPS2-RL是一种两阶段安全强化学习框架,第一阶段通过safe-arrival价值函数训练备份策略,隐含构建控制不变集。第二阶段利用可微投影层对RL策略进行端到端训练,严格保证安全约束。该方法在最高10维状态的机器人控制任务上评估,较此前可证明安全方法更可扩展且性能更优。PS2-RL不限制底层RL算法,可插入现有训练流程。论文PS2-RL安全强化学习可证明安全备份策略控制不变集推荐理由:安全RL扩展新解法原文