论文精选

RREDCoT:为推理模型实现分段奖励再分配

RREDCoT: Segment-Level Reward Redistribution for Reasoning Models

精选理由

做推理模型RL微调的团队终于有了降低训练方差的实际方案——RREDCoT用模型自身做信用分配,省去额外生成成本,长上下文场景下效果显著,值得关注。

AI 摘要

当前推理语言模型通过强化学习微调时,常使用GRPO算法,但该算法面临延迟奖励问题——只能在完整思维链后给出奖励,导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法,利用模型自身对思维链中的关键片段进行信用分配,从而降低训练方差。实验表明,该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路,尤其适合长上下文场景。

AI 翻译 · 中文

当前推理语言模型通过强化学习微调时,常使用GRPO算法,但该算法面临延迟奖励问题——只能在完整思维链后给出奖励,导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法,利用模型自身对思维链中的关键片段进行信用分配,从而降低训练方差。实验表明,该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路,尤其适合长上下文场景。

arXiv cs.AIRecent advancements in reasoning language models have been driven by Reinforcement Learning (RL) fine-tuning. Most often, these rely on the Group Relative Policy Optimization (GRPO) algorithm or modifications thereof to