论文精选76°

RELEX:仅需15%训练步数,通过秩-1轨迹外推提升LLM推理能力

You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories

精选理由

RLVR训练成本高昂,RELEX用极低成本实现同等推理提升,做LLM推理优化的团队可以直接用代码复现,值得一试。

AI 摘要

研究发现强化学习(RLVR)训练中模型权重的变化轨迹是低秩且高度可预测的,大部分性能提升来自秩-1近似。基于此,研究者提出RELEX方法,仅需观察少量训练步数(如50步),通过线性回归外推未来检查点(如1000步),即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证,RELEX仅需15%的训练步数即可达到同等效果,且能外推至10-20倍于观察窗口。该方法无需额外学习模型,通过丢弃随机优化噪声实现去噪效果,从而提升外推性能。

AI 翻译 · 中文

研究发现强化学习(RLVR)训练中模型权重的变化轨迹是低秩且高度可预测的,大部分性能提升来自秩-1近似。基于此,研究者提出RELEX方法,仅需观察少量训练步数(如50步),通过线性回归外推未来检查点(如1000步),即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证,RELEX仅需15%的训练步数即可达到同等效果,且能外推至10-20倍于观察窗口。该方法无需额外学习模型,通过丢弃随机优化噪声实现去噪效果,从而提升外推性能。

arXiv cs.LGReinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains un