代码RL领域首次系统揭示正确性与效率的权衡前沿,做编程竞赛或代码生成优化的团队可以直接用外推权重平均提升模型性能,无需额外训练成本。
该研究探讨了在代码强化学习(RL)中,通过外推权重平均(extrapolative weight averaging)能否在不额外训练的情况下,扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务,使用嵌套单元测试覆盖(从低覆盖到高覆盖)训练检查点,发现正确性与效率之间存在权衡:高覆盖奖励减少优化失败但增加正确性失败,整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿,而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上,以相同样本预算将pass@250提升了3.3%。结果表明,嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。
该研究探讨了在代码强化学习(RL)中,通过外推权重平均(extrapolative weight averaging)能否在不额外训练的情况下,扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务,使用嵌套单元测试覆盖(从低覆盖到高覆盖)训练检查点,发现正确性与效率之间存在权衡:高覆盖奖励减少优化失败但增加正确性失败,整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿,而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上,以相同样本预算将pass@250提升了3.3%。结果表明,嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。
Linear interpolation between fine-tuned checkpoints has been shown to trace the Pareto front between competing objectives, but whether extrapolative weight averaging can extend such frontiers to new checkpoints useful at…