11:28arXiv cs.AI@Zhiyuan Zhou, Andy Peng, Charles Xu, Qiyang Li, Tobias Springenberg, Kevin Frans, Sergey Levine精选强化学习中的扩散/流模型策略虽在模仿学习中表现出色,但整合到RL训练中常因稳定性问题而受限。本文提出QGF(Q-Guided Flow),一种仅在测试时进行策略优化的RL算法。它预训练一个参考流策略(通过行为克隆)和一个价值函数,在测试时利用价值梯度引导参考策略生成更高价值的动作,无需额外策略学习。实验表明,QGF在离线RL基准上优于现有测试时方法,与最先进的训练时算法性能相当且计算成本更低,且随模型规模扩展表现良好。论文强化学习流模型测试时优化QGF离线RL推荐理由:做机器人控制或连续控制RL的团队,如果受困于扩散/流模型训练的不稳定性,QGF提供了一种“训练照旧、测试优化”的实用方案,值得一试。原文
11:07arXiv cs.LG@Shixiong Jiang, Taozheng Zhu, Fanxin Kong精选离线安全强化学习(Safe RL)依赖静态数据集,容易遭受数据毒化攻击——攻击者注入恶意样本导致策略不安全。本文提出Safe-RULE(安全强化反学习)框架,无需从头重新训练或访问原始训练环境,即可移除毒化数据的影响。该方法在反学习过程中同时考虑任务性能和安全约束,实验表明能有效提升对数据毒化攻击的安全性。论文安全强化学习数据毒化防御反学习离线RLSafe-RULE推荐理由:做安全强化学习或机器人系统的团队,终于有了一个不用重训模型就能清理毒化数据的方案,值得关注。原文