RLDT：用强化学习微调流匹配策略，密度传输对齐奖励区域

精选理由

RLDT 解决了流匹配策略在强化学习中难以微调的痛点，做连续控制或机器人操作的团队可以直接参考其密度传输思路，比蒸馏或近似分布的方法更高效。

AI 摘要

本文提出 RLDT（Reinforcement Learning with Density Transport），一种在线强化学习算法，用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输，与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降（SVGD）从最大熵 RL 目标构建传输场，然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作，避免了不稳定的反向传播。实验表明，RLDT 在奖励质量和收敛速度上优于基线，适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。

AI 翻译 · 中文

arXiv cs.AIWe present an online reinforcement learning (RL) algorithm for fine-tuning flow-matching policies in continuous-control problems. Our key insight is to view RL-based policy improvement as a transport of action densities …

阅读原文