Skill-RM：用智能体技能统一异构评估标准，提升奖励模型性能

精选理由

做 LLM 后训练（RFT/RL）的团队终于有了统一的奖励评估框架，不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据，效果还更好，做对齐和强化学习的建议直接看代码。

AI 摘要

当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准，缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程，通过智能体动态选择和聚合证据，实现一致且透明的评估。在奖励基准和下游任务（如 Best-of-N 选择和强化学习）中，Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案，并通过策略性证据编排取得更优性能。代码已开源。

AI 翻译 · 中文

arXiv cs.LGReward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous c…

阅读原文