精选理由
做推理模型RL微调的团队终于有了降低训练方差的实际方案——RREDCoT用模型自身做信用分配,省去额外生成成本,长上下文场景下效果显著,值得关注。
当前推理语言模型通过强化学习微调时,常使用GRPO算法,但该算法面临延迟奖励问题——只能在完整思维链后给出奖励,导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法,利用模型自身对思维链中的关键片段进行信用分配,从而降低训练方差。实验表明,该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路,尤其适合长上下文场景。
AI 翻译 · 中文
当前推理语言模型通过强化学习微调时,常使用GRPO算法,但该算法面临延迟奖励问题——只能在完整思维链后给出奖励,导致高方差。RREDCoT提出一种无需额外生成的奖励再分配方法,利用模型自身对思维链中的关键片段进行信用分配,从而降低训练方差。实验表明,该方法在计算开销和效果上优于蒙特卡洛采样及其他归因方法。这项研究为提升推理模型训练效率提供了新思路,尤其适合长上下文场景。
Recent advancements in reasoning language models have been driven by Reinforcement Learning (RL) fine-tuning. Most often, these rely on the Group Relative Policy Optimization (GRPO) algorithm or modifications thereof to …