§ 01综述
样本效率(sample efficiency)是强化学习(RL)领域的核心议题,指算法利用有限交互数据就能学习有效策略的能力。传统RL方法通常需要数百万次环境交互才能解决复杂任务,这在实际应用中代价高昂。近年来,OpenAI等机构在提升样本效率方面取得了一系列进展。
事后经验回放(Hindsight Experience Replay, HER) 通过将失败经验重新标记为“成功”来学习,使得稀疏奖励任务(如机械臂抓取)的样本效率大幅提升。该方法在模拟机器人任务中实现了比传统方法快数倍的学习速度(事后经验回放:创新强化学习技术)。
RL² 与元学习思路 将RL过程本身视为一个学习问题,通过慢速元学习让智能体学会快速适应新任务,从而在少量交互内调整策略。该方法在迷宫导航等任务中展现了跨任务迁移能力(RL²:用慢强化学习实现快速强化学习)。
单次演示学习 探索通过仅一次人类演示或简单模仿,让智能体掌握高难度任务如《蒙特祖玛的复仇》(Montezuma's Revenge),此后该演示可被算法高效地泛化,大幅减少从零探索所需的数据量(单次演示学会Montezuma's Revenge)。
算法优化基线 如ACKTR与A2C等高效算法,通过改进优化方法(如自然梯度、并行环境)在标准测试中提高了数据利用效率,成为后续研究的参考基准(OpenAI 发布 ACKTR 与 A2C 强化学习基线)。
当前焦点在于如何结合经验回放、元学习、演示学习等技术,在更复杂且真实的环境(如机器人操控、自动驾驶)中实现接近人类的学习效率。未来观察点包括:能否在无需大量专家演示的条件下实现单样本或零样本学习?以及这些方法如何与在线主动学习、模型预测控制等技术融合。