在强化学习中,探索(exploration)是智能体在环境中获取新知识、避免陷入局部最优的关键机制。近年来,研究者不断提出新的探索策略,以提升样本效率和泛化能力。
- 近期进展主要包括:
- 参数噪声方法:OpenAI 提出通过在策略网络参数上添加噪声进行探索,相较于传统的动作空间噪声,能在高维连续控制任务中实现更稳定的探索效果(参数噪声提升强化学习探索效果)。
- 基于计数的探索:利用状态访问频率的计数机制来驱动探索,鼓励智能体访问未充分探索的状态,已在多个经典环境中验证有效性(基于计数的深度强化学习探索方法研究)。
- UCB与Q集成:将多臂老虎机中的置信上界(UCB)思想扩展到强化学习,通过维护多个Q函数估计其不确定性,从而在决策时平衡探索与利用(UCB探索:Q集成方法)。
- 元强化学习:从元学习角度探讨如何让智能体学会探索策略,使其在新任务中快速适应(通过元强化学习学习探索的思考)。
- 好奇心驱动学习:大规模研究表明,基于内在好奇心奖励的探索方法能有效引导智能体在没有外部奖励时主动探索环境(大规模好奇心驱动学习研究)。
- 预测奖励方法:引入基于预测的奖励信号,智能体通过预测模型对未知状态产生内在奖励,推动探索(基于预测奖励的强化学习探索方法)。
- 规划与学习结合:提出“在线规划、离线学习”框架,利用模型进行计划以高效探索,同时从离线经验中学习(在线规划离线学习:基于模型的高效探索)。
当前焦点集中在如何将多种探索策略(如内在奖励、不确定性估计、元学习)融合,以及如何使探索机制在稀疏奖励、高维状态空间和实际部署中更具鲁棒性。未来观察点包括探索中的安全性与计算效率,以及探索策略在迁移学习、多任务场景下的通用性。