Eval-Skill:探索引导的评估技能合成,提升奖励模型判断力

Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling

精选理由

做奖励模型或 LLM 评估的团队终于有了一个轻量级替代方案——不用每次生成评分标准,而是合成可复用的评估技能,效果还比传统方法好很多,值得在 RewardBench 上跑一下自己的模型。

AI 摘要

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题,研究者提出 Eval-Skill 方法。该方法通过探索引导,仅用每个领域 100 个案例,分两阶段(工作流生成与原则生成)合成可复用的领域级评估技能,直接注入判断模型上下文。在 RewardBench 2 上,Eval-Skill 显著提升多种基座模型表现,如 Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性,表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

AI 翻译 · 中文

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题,研究者提出 Eval-Skill 方法。该方法通过探索引导,仅用每个领域 100 个案例,分两阶段(工作流生成与原则生成)合成可复用的领域级评估技能,直接注入判断模型上下文。在 RewardBench 2 上,Eval-Skill 显著提升多种基座模型表现,如 Qwen3-8B 提升 13.44%,DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性,表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

arXiv: DeepSeekOpen-ended reward modeling requires judges that can follow subtle, domain-specific preferences when verifiable answers are unavailable. Existing rubric-based methods often address this by generating criteria online for e