论文精选

COOPO:循环离线-在线策略优化算法,提升强化学习效率

COOPO: Cyclic Offline-Online Policy Optimization Algorithm

精选理由

做强化学习研究的团队终于有了一个能同时解决分布偏移和灾难性遗忘的通用框架——COOPO 的循环设计让离线数据复用和在线探索形成正向循环,D4RL 上效果显著,建议做 RL 算法开发的同学点开看理论证明和实验细节。

AI 摘要

COOPO 是一种新型强化学习框架,通过循环交替进行约束离线训练和在线微调,解决了离线强化学习中的分布偏移和在线学习中的高交互成本问题。该算法在每个循环中先用 KL 正则化的优势加权更新锚定策略,再用任意策略优化进行在线微调,定期回归离线训练可消除遗忘和漂移。理论证明 COOPO 在标准覆盖假设下能实现单调改进,在线样本效率优于纯在线 RL。在 D4RL 基准测试中,COOPO 相比最先进的混合方法减少了在线交互次数,同时提升了最终回报,且对不同离线算法和在线优化器具有鲁棒性。

AI 翻译 · 中文

COOPO 是一种新型强化学习框架,通过循环交替进行约束离线训练和在线微调,解决了离线强化学习中的分布偏移和在线学习中的高交互成本问题。该算法在每个循环中先用 KL 正则化的优势加权更新锚定策略,再用任意策略优化进行在线微调,定期回归离线训练可消除遗忘和漂移。理论证明 COOPO 在标准覆盖假设下能实现单调改进,在线样本效率优于纯在线 RL。在 D4RL 基准测试中,COOPO 相比最先进的混合方法减少了在线交互次数,同时提升了最终回报,且对不同离线算法和在线优化器具有鲁棒性。

arXiv cs.AIOffline reinforcement learning struggles with distributional shift and constrained performance due to static dataset limitations, while online RL demands prohibitive environment interactions. The recent advent of hybrid