近期强化学习领域对“优势”(Advantage)的讨论聚焦于其在策略优化中的估计精度与稳定性。优势函数衡量动作相对于平均水平的收益,是诸多现代算法(如PPO、GRPO)的核心。然而,新研究揭示了现有优势估计方法在复杂场景下的缺陷,并提出了改进方案。
- 主要进展包括:
- GRPO的优势坍塌问题被系统诊断并提出缓解方案。GRPO通过组内相对优势来稳定训练,但研究发现当组内样本差异过大时,优势估计方差激增,导致策略更新扭曲。作者提出AVSPO(Adaptive Variance-Scaled Policy Optimization),通过动态缩放优势来抑制极端值,实验证明其提升了样本效率和最终性能。见《GRPO优势坍塌问题诊断与AVSPO缓解方案》(https://arxiv.org/abs/2605.21125v1)。
- APPO(Asymmetric Proximal Policy Optimization)针对AI智能体工具调用场景,引入细粒度决策点优势估计。传统PPO对长序列任务的优势估计粗糙,APPO通过分解子任务并独立计算局部优势,使智能体更精确保留或放弃工具调用机会。该方法在复杂工具使用基准上取得新SOTA。见《APPO:细粒度决策点强化学习提升AI智能体工具调用能力》(https://arxiv.org/abs/2606.12384v1)。
- σ-Reveal及A³方法则从动作信用分配角度改进优势计算。它们针对命令行界面(CLI)智能体,提出结构化动作信用学习:通过记录动作对后续状态的影响路径(σ-Reveal),再利用注意力机制(A³)为每个动作赋予更准确的信用分数,从而降低优势估计的偏置。该方法显著提升了CLI任务的完成率。见《σ-Reveal和A³:用结构化动作信用学习CLI智能体》(https://arxiv.org/abs/2605.08013v1)。
当前焦点在于:优势估计的偏差-方差权衡、长序列任务中的信用分配,以及在复杂交互环境中的泛化性。未来可观察这些方法能否迁移至更多领域(如机器人控制),以及它们与基础模型微调技术的结合潜力。