论文精选

LP-DS:轻量级扩散策略微调方法,提升机器人操控与强化学习效率

Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies

精选理由

做机器人操控或强化学习的团队,终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报,建议试试看能否解决你的分布偏移问题。

AI 摘要

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS),一种轻量级方法,通过优化冻结生成式策略的噪声空间扰动来提升性能,无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标,在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中,LP-DS 在样本效率、成功率和回报上均有提升,回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型,并在真实 Franka 机器人上验证了有效性。

AI 翻译 · 中文

论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS),一种轻量级方法,通过优化冻结生成式策略的噪声空间扰动来提升性能,无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标,在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中,LP-DS 在样本效率、成功率和回报上均有提升,回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型,并在真实 Franka 机器人上验证了有效性。

arXiv: OpenAIBehavior cloning with high-capacity generative policies achieves strong imitation performance, but is often limited by demonstration coverage and distribution shift. Direct reinforcement learning fine-tuning can improve