Advantage

§ 01综述

Advantage 在强化学习与人工智能中常指优势函数，用于量化某动作相对于平均水平的价值增益。近期（2026年6–7月）多项研究围绕 Advantage 的计算、蒸馏与稳定性提出新方法，涵盖无监督机器人值修正、双重策略蒸馏、进度优势利用及优势坍塌缓解等方向。

Advantage 近期进展

UR-VC：无监督机器人值修正方法：提出无需人工标注的优势值修正框架，通过环境交互自动调整机器人策略优势估计，减少值函数偏差。

DOPD：双重同策略蒸馏方法提出，解决特权幻觉问题：利用双分支同策略蒸馏，避免特权信息导致的优势幻觉，提升离线策略学习中的优势估计准确性。

后训练中被忽视的免费午餐：进度优势用于LLM智能体：引入进度优势（Progress Advantage）概念，在大语言模型后训练阶段利用历史状态优势差异，实现免费的策略提升。

GRPO优势坍塌问题诊断与AVSPO缓解方案：首次系统诊断 GRPO 算法中的优势坍塌现象，并提出自适应方差缩放优势优化（AVSPO）加以缓解。

当前焦点与观察点

当前 Advantage 相关研究的焦点集中在三个方向：一是无监督/自监督条件下如何获取可靠优势函数，避免人工标注成本；二是优势估计在复杂任务（如LLM智能体）中的泛化与蒸馏，特别是多步决策时的进度优势建模；三是训练稳定性问题，如优势坍塌导致策略退化。这些工作共同指向使 Advantage 计算更鲁棒、更高效这一核心目标。未来可能会进一步结合大规模预训练模型，探索 Advantage 在开放环境下的自适应校准。

§ 02相关报道07 条在档

§ 03邻近话题