10:51arXiv: Google DeepMind@Junjian Zhang, Hao Tan, Ruonan Li, Dong Zhu, Aiping Li, Zhaoquan GuARB4WM提出一个统一的评估框架,用于测试世界模型在视觉扰动下的对抗鲁棒性。该框架定义了五个白盒损失目标,涵盖策略、价值和潜在动力学三个层面。在MetaWorld和DeepMind Control Suite的20个任务上评估了四种Dreamer-style代理。结果显示,针对值估计、潜在表示和RSSM动力学的攻击与直接策略破坏同等有害,早期或频繁扰动尤其严重。代码已开源并提供使用接口。AI模型ARB4WMDreamer世界模型对抗鲁棒性连续控制推荐理由:想检验你的世界模型扛不扛揍?ARB4WM这个新基准专门测视觉扰动下的鲁棒性,比单看动作空间全面多了。原文
13:09arXiv cs.AI@Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko该论文提出了一种新的强化学习训练方法,通过嵌入已有的基线策略来提升训练效率。方法在训练初期依赖基线策略,逐步将控制权转移给可训练的学习策略,最终使学习策略独立运行。理论分析证明了该方法在目标到达概率上的优势,实验表明其在连续控制任务中表现优于或持平于现有方法,且全程保持高目标到达率。论文强化学习策略增强基线策略模型无关连续控制推荐理由:做强化学习训练的团队可以省下从头调参的功夫——用现有基线策略做跳板,训练效率更高且最终策略更强,值得在连续控制任务上试试。原文
11:57arXiv cs.AI@Boshu Lei, Kostas Daniilidis, Antonio Loquercio精选本文提出 RLDT(Reinforcement Learning with Density Transport),一种在线强化学习算法,用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输,与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降(SVGD)从最大熵 RL 目标构建传输场,然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作,避免了不稳定的反向传播。实验表明,RLDT 在奖励质量和收敛速度上优于基线,适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。论文强化学习流匹配密度传输连续控制机器人操作推荐理由:RLDT 解决了流匹配策略在强化学习中难以微调的痛点,做连续控制或机器人操作的团队可以直接参考其密度传输思路,比蒸馏或近似分布的方法更高效。原文
10:04arXiv: OpenAI@Shuai Zhen, Yifan Zhang, Yuling Wang, Yanhua Yu强化学习长期面临样本效率低下的问题,利用群不变马尔可夫决策过程(G-invariant MDPs)是一种有前景的缓解方法。现有工作主要关注基于图像的强化学习和旋转对称性(如SO(2)),而基于状态的强化学习和反射对称性尚未充分探索。本文提出Reflex范式,专注于基于状态的连续控制任务,利用反射对称性(包括轴向反射和双侧反射),并与PPO和SAC等算法无缝集成。通过理论分析对称性保持的最优值函数和策略,Reflex引入对称性正则化机制,在OpenAI Gym和DeepMind Control基准测试中显著提升了样本效率和性能。代码已开源。论文强化学习样本效率反射对称性连续控制开源/仓库8 个信源在谈推荐理由:Reflex解决了强化学习样本效率低下的痛点,尤其适合做连续控制任务的RL研究者——直接集成PPO/SAC就能提升性能,值得一试。原文
11:41arXiv: Google DeepMind@Bosun Liang, Shuo Pei, Zirui Chen, Chuanzhi Fan, Chen Sun, Yuankai Wu, Huachun Tan, Yong Wang精选强化学习常产生高频振荡控制信号,影响物理部署的安全与稳定。显式动作分块虽能预测固定轨迹,但会扩大策略输出维度,导致优化困难。本文提出双窗口平滑(DWS)框架,通过隐式动作分块实现平滑连续控制,无需扩展动作空间。DWS包含执行窗口(确保物理平滑)和价值窗口(修正评论家偏差),并引入轻量级时序正则化器。在DeepMind控制套件、工业能源管理及视觉自动驾驶任务中,DWS超越现有方法,实现100%成功率。论文强化学习连续控制动作分块平滑控制DWS推荐理由:做机器人控制或自动驾驶的团队,DWS解决了强化学习控制信号抖动这个老大难问题,无需增加模型复杂度就能提升安全性和成功率,值得在你们的仿真或实机任务上试试。原文
19:11arXiv: Google DeepMind@Jiamin He, Samuel Neumann, Jincheng Mei, Adam White, Martha White本文探讨了在连续动作强化学习中混合策略相对于单峰策略的优势及其实用性。作者指出,尽管混合策略在理论上更灵活,但标准算法如SAC未能充分利用这一优势,主要原因是缺乏低方差的重新参数化技巧。为此,他们提出了边际化重新参数化(MRP)估计器,证明了其比标准似然比方法方差更低。实验表明,MRP混合策略显著优于似然比方法,在某些任务上甚至达到或超越高斯策略。该研究将MRP混合策略从理论好奇转化为实用工具,为强化学习中的策略设计提供了新思路。论文强化学习混合策略连续控制重新参数化MRP推荐理由:该论文提出了MRP估计器,解决了混合策略在强化学习中的方差问题,实验验证了其有效性,对从事连续控制任务的研究者和工程师具有参考价值。原文