09:47arXiv cs.LG@Xiaoran Liu, Istvan David论文提出基于模型驱动的方法,通过混合遗传算法(结合全局搜索和启发式局部搜索)自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换,由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习(依赖环境家族的学习范式)中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低,提升了可扩展性。论文强化学习模型驱动课程学习环境家族遗传算法推荐理由:这篇论文提出用模型驱动和遗传算法自动生成RL环境变体,省去手写大量相似环境的麻烦,野火场景验证过,做课程学习的可以看看。原文