精选理由
RLDT 解决了流匹配策略在强化学习中难以微调的痛点,做连续控制或机器人操作的团队可以直接参考其密度传输思路,比蒸馏或近似分布的方法更高效。
本文提出 RLDT(Reinforcement Learning with Density Transport),一种在线强化学习算法,用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输,与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降(SVGD)从最大熵 RL 目标构建传输场,然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作,避免了不稳定的反向传播。实验表明,RLDT 在奖励质量和收敛速度上优于基线,适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。
AI 翻译 · 中文
本文提出 RLDT(Reinforcement Learning with Density Transport),一种在线强化学习算法,用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输,与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降(SVGD)从最大熵 RL 目标构建传输场,然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作,避免了不稳定的反向传播。实验表明,RLDT 在奖励质量和收敛速度上优于基线,适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。
We present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuous-control problems. Our key insight is to view RL-based policy improvement as a transport of action densities …