POW3R：让RLVR的评分标准更智能地指导训练

精选理由

做RLHF或RLVR的团队终于有了更聪明的奖励设计——POW3R解决了静态评分标准浪费训练信号的问题，做多模态或文本模型对齐的开发者可以直接参考实验设置。

AI 摘要

强化学习中的可验证奖励（RLVR）在自动检查正确性时很有效，但许多模型行为需要同时满足多个定性标准。基于评分标准的奖励（rubric-based rewards）通过聚合多个标准来解决这一问题，但静态聚合会混淆人类赋予的重要性和当前优化信号的有效性。研究人员提出POW3R框架，它能在训练过程中动态调整各标准的奖励权重，优先关注当前能区分模型输出的标准。实验表明，POW3R在30个基线策略/指标比较中赢了24个，平均奖励和严格完成率均优于传统方法，且训练速度提升2.5-4倍。

AI 翻译 · 中文

arXiv cs.AIReinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteri…

阅读原文