Eval-Skill：探索引导的评估技能合成，提升奖励模型判断力

精选理由

做奖励模型或 LLM 评估的团队终于有了一个轻量级替代方案——不用每次生成评分标准，而是合成可复用的评估技能，效果还比传统方法好很多，值得在 RewardBench 上跑一下自己的模型。

AI 摘要

针对开放域奖励建模中缺乏可验证答案、传统基于评分标准的方法生成僵化且增加推理开销的问题，研究者提出 Eval-Skill 方法。该方法通过探索引导，仅用每个领域 100 个案例，分两阶段（工作流生成与原则生成）合成可复用的领域级评估技能，直接注入判断模型上下文。在 RewardBench 2 上，Eval-Skill 显著提升多种基座模型表现，如 Qwen3-8B 提升 13.44%，DeepSeek-V4-Flash 提升 18.51%。实验还分析了扩展性、泛化性和迁移性，表明紧凑评估技能为基于 LLM 的评估提供了高效新范式。代码已开源。

AI 翻译 · 中文

arXiv: DeepSeekOpen-ended reward modeling requires judges that can follow subtle, domain-specific preferences when verifiable answers are unavailable. Existing rubric-based methods often address this by generating criteria online for e…

阅读原文