论文精选

POW3R:让RLVR的评分标准更智能地指导训练

Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

精选理由

做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题,做多模态或文本模型对齐的开发者可以直接参考实验设置。

AI 摘要

强化学习中的可验证奖励(RLVR)在自动检查正确性时很有效,但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励(rubric-based rewards)通过聚合多个标准来解决这一问题,但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架,它能在训练过程中动态调整各标准的奖励权重,优先关注当前能区分模型输出的标准。实验表明,POW3R在30个基线策略/指标比较中赢了24个,平均奖励和严格完成率均优于传统方法,且训练速度提升2.5-4倍。

AI 翻译 · 中文

强化学习中的可验证奖励(RLVR)在自动检查正确性时很有效,但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励(rubric-based rewards)通过聚合多个标准来解决这一问题,但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架,它能在训练过程中动态调整各标准的奖励权重,优先关注当前能区分模型输出的标准。实验表明,POW3R在30个基线策略/指标比较中赢了24个,平均奖励和严格完成率均优于传统方法,且训练速度提升2.5-4倍。

arXiv cs.AIReinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteri