精选理由
做机器人操控或强化学习的团队,终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报,建议试试看能否解决你的分布偏移问题。
论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS),一种轻量级方法,通过优化冻结生成式策略的噪声空间扰动来提升性能,无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标,在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中,LP-DS 在样本效率、成功率和回报上均有提升,回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型,并在真实 Franka 机器人上验证了有效性。
AI 翻译 · 中文
论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS),一种轻量级方法,通过优化冻结生成式策略的噪声空间扰动来提升性能,无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标,在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中,LP-DS 在样本效率、成功率和回报上均有提升,回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型,并在真实 Franka 机器人上验证了有效性。
Behavior cloning with high-capacity generative policies achieves strong imitation performance, but is often limited by demonstration coverage and distribution shift. Direct reinforcement learning fine-tuning can improve …
- AI Will06-01 09:39原文