13:09arXiv cs.AI@Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko该论文提出了一种新的强化学习训练方法,通过嵌入已有的基线策略来提升训练效率。方法在训练初期依赖基线策略,逐步将控制权转移给可训练的学习策略,最终使学习策略独立运行。理论分析证明了该方法在目标到达概率上的优势,实验表明其在连续控制任务中表现优于或持平于现有方法,且全程保持高目标到达率。论文强化学习策略增强基线策略模型无关连续控制推荐理由:做强化学习训练的团队可以省下从头调参的功夫——用现有基线策略做跳板,训练效率更高且最终策略更强,值得在连续控制任务上试试。原文