AIDA:有限目标数据下视觉强化学习的域自适应方法

Domain Adaptation with Adaptive Imagination for Visual Reinforcement Learning under Limited Target Data

精选理由

仿真到真实迁移一直难做,这篇论文的AIDA方法在目标数据极少时仍能大幅提升性能,比之前的方法强不少。

AI 摘要

针对仿真到真实迁移中目标数据稀缺的问题,该研究提出AIDA框架。AIDA通过自适应想象生成可靠轨迹,并利用分布偏移感知判别器截断低置信度过渡,仅保留可靠数据用于增强。在5个MuJoCo任务和2个Gymnasium-Robotics任务上,AIDA显著优于现有基线方法。实验表明自适应想象能有效截断不可靠轨迹,并通过自一致性损失学习有语义的状态表示。

AI 翻译 · 中文

针对仿真到真实迁移中目标数据稀缺的问题,该研究提出AIDA框架。AIDA通过自适应想象生成可靠轨迹,并利用分布偏移感知判别器截断低置信度过渡,仅保留可靠数据用于增强。在5个MuJoCo任务和2个Gymnasium-Robotics任务上,AIDA显著优于现有基线方法。实验表明自适应想象能有效截断不可靠轨迹,并通过自一致性损失学习有语义的状态表示。

arXiv cs.AISim-to-real transfer remains a major obstacle for reinforcement learning (RL), especially for vision-based control where image observations exacerbate the state-distribution shift between simulation and the real world. D