论文精选

QUBRIC:联合设计查询与评分标准,突破RLVR限制

QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards

精选理由

QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配,做RL训练或AI对齐的团队可以直接参考其方法,提升模型在开放推理任务上的表现。

AI 摘要

现有基于评分标准的强化学习(RL)方法将查询分布视为固定,导致开放查询产生模糊评分标准,而狭窄查询又引入无法验证的参考,使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题,并利用对比评分生成和可学习性过滤,保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上,QUBRIC相比SFT基线提升5.5分,且仅用指令跟随数据训练后,在三个未见基准(法律、道德、叙事推理)上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。

AI 翻译 · 中文

现有基于评分标准的强化学习(RL)方法将查询分布视为固定,导致开放查询产生模糊评分标准,而狭窄查询又引入无法验证的参考,使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题,并利用对比评分生成和可学习性过滤,保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上,QUBRIC相比SFT基线提升5.5分,且仅用指令跟随数据训练后,在三个未见基准(法律、道德、叙事推理)上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。

arXiv cs.AIRubric-based RL is a promising route for extending reinforcement learning beyond verifiable rewards, yet existing methods optimize rubrics while treating the query distribution as fixed. We identify a structural bottlene