QUBRIC：联合设计查询与评分标准，突破RLVR限制

精选理由

QUBRIC解决了RL在非可验证任务中的核心瓶颈——查询与评分标准不匹配，做RL训练或AI对齐的团队可以直接参考其方法，提升模型在开放推理任务上的表现。

AI 摘要

现有基于评分标准的强化学习（RL）方法将查询分布视为固定，导致开放查询产生模糊评分标准，而狭窄查询又引入无法验证的参考，使训练失去奖励信号。QUBRIC框架通过教师提取关键点将开放查询重写为可评估的场景问题，并利用对比评分生成和可学习性过滤，保留信息丰富的查询-评分对用于GRPO训练。在ArenaHard上，QUBRIC相比SFT基线提升5.5分，且仅用指令跟随数据训练后，在三个未见基准（法律、道德、叙事推理）上平均提升6.3分。这表明联合设计查询与评分标准可使基于评分标准的RL成为严格可验证任务之外的有效补充。

AI 翻译 · 中文

arXiv cs.AIRubric-based RL is a promising route for extending reinforcement learning beyond verifiable rewards, yet existing methods optimize rubrics while treating the query distribution as fixed. We identify a structural bottlene…

阅读原文