论文72°

ESPO:早期停止PPO,节省20%推理token并提升数学推理性能

ESPO: Early-Stopping Proximal Policy Optimization

精选理由

做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好,还省了20%的token,训练成本敏感的团队值得一试。

AI 摘要

ESPO(Early-Stopping Proximal Policy Optimization)是一种针对大语言模型强化学习训练的新方法,能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长,浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值,在累积遗憾显著超过估计值时终止轨迹,并将截断轨迹视为吸收失败状态,无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO,同时累计节省超过20%的生成token。

AI 翻译 · 中文

ESPO(Early-Stopping Proximal Policy Optimization)是一种针对大语言模型强化学习训练的新方法,能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长,浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值,在累积遗憾显著超过估计值时终止轨迹,并将截断轨迹视为吸收失败状态,无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO,同时累计节省超过20%的生成token。

arXiv: DeepSeekWhen a large language model under reinforcement learning commits a wrong reasoning step early in a trajectory, standard algorithms force it to keep generating until the maximum horizon, spending compute on tokens that ne