10:46arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He论文提出Ranking-induced VERifiable framework (RiVER),无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后,Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%,GLM-Z1-9B-0414提升9.4%。同时,RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明,仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。论文RiVERQwen3-8BGLM-Z1-9B-0414强化学习编程能力推荐理由:论文介绍RiVER,用强化学习训练模型解决无标准答案的得分优化问题,还能顺带提升常规编程基准,实用思路值得一看。原文