12:12arXiv cs.AI@Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger, Sepp Hochreiter精选当前推理语言模型通过强化学习微调时,常使用GRPO算法,但该算法面临延迟奖励问题——只能在完整思维链后给出奖励,导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法,利用模型自身对思维链中的关键片段进行信用分配,从而降低训练方差。实验表明,该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路,尤其适合长上下文场景。论文推理模型强化学习奖励再分配思维链信用分配推荐理由:做推理模型RL微调的团队终于有了降低训练方差的实际方案——RREDCoT用模型自身做信用分配,省去额外生成成本,长上下文场景下效果显著,值得关注。原文