ESPO：早期停止PPO，节省20%推理token并提升数学推理性能

精选理由

做LLM强化学习训练的团队终于有了一个能省算力又提效果的方法——ESPO在数学推理任务上不仅性能更好，还省了20%的token，训练成本敏感的团队值得一试。

AI 摘要

ESPO（Early-Stopping Proximal Policy Optimization）是一种针对大语言模型强化学习训练的新方法，能在推理轨迹中早期检测到错误步骤并提前终止生成。传统PPO算法在模型犯错后仍会强制生成直到最大步长，浪费计算资源并污染优势估计。ESPO通过实时计算基于logits的代理遗憾值，在累积遗憾显著超过估计值时终止轨迹，并将截断轨迹视为吸收失败状态，无需额外奖励模型或人工标注。在DeepSeek-R1-Distill-Qwen-7B的数学推理训练中，ESPO在AIME 2024、AMC 2023和MATH-500上均超越PPO，同时累计节省超过20%的生成token。

AI 翻译 · 中文

arXiv: DeepSeekWhen a large language model under reinforcement learning commits a wrong reasoning step early in a trajectory, standard algorithms force it to keep generating until the maximum horizon, spending compute on tokens that ne…

阅读原文