sample-efficiency

§ 01综述

样本效率（sample efficiency）是强化学习（RL）领域的核心议题，指算法利用有限交互数据就能学习有效策略的能力。传统RL方法通常需要数百万次环境交互才能解决复杂任务，这在实际应用中代价高昂。近年来，OpenAI等机构在提升样本效率方面取得了一系列进展。

事后经验回放（Hindsight Experience Replay, HER） 通过将失败经验重新标记为“成功”来学习，使得稀疏奖励任务（如机械臂抓取）的样本效率大幅提升。该方法在模拟机器人任务中实现了比传统方法快数倍的学习速度（事后经验回放：创新强化学习技术）。

RL² 与元学习思路 将RL过程本身视为一个学习问题，通过慢速元学习让智能体学会快速适应新任务，从而在少量交互内调整策略。该方法在迷宫导航等任务中展现了跨任务迁移能力（RL²：用慢强化学习实现快速强化学习）。

单次演示学习 探索通过仅一次人类演示或简单模仿，让智能体掌握高难度任务如《蒙特祖玛的复仇》（Montezuma's Revenge），此后该演示可被算法高效地泛化，大幅减少从零探索所需的数据量（单次演示学会Montezuma's Revenge）。

算法优化基线 如ACKTR与A2C等高效算法，通过改进优化方法（如自然梯度、并行环境）在标准测试中提高了数据利用效率，成为后续研究的参考基准（OpenAI 发布 ACKTR 与 A2C 强化学习基线）。

当前焦点在于如何结合经验回放、元学习、演示学习等技术，在更复杂且真实的环境（如机器人操控、自动驾驶）中实现接近人类的学习效率。未来观察点包括：能否在无需大量专家演示的条件下实现单样本或零样本学习？以及这些方法如何与在线主动学习、模型预测控制等技术融合。

§ 02相关报道04 条在档

§ 03邻近话题