论文精选

Skill-RM:用智能体技能统一异构评估标准,提升奖励模型性能

Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

精选理由

做 LLM 后训练(RFT/RL)的团队终于有了统一的奖励评估框架,不用再为不同任务拼凑规则和检查表了——Skill-RM 用智能体思路动态整合证据,效果还更好,做对齐和强化学习的建议直接看代码。

AI 摘要

当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准,缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程,通过智能体动态选择和聚合证据,实现一致且透明的评估。在奖励基准和下游任务(如 Best-of-N 选择和强化学习)中,Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案,并通过策略性证据编排取得更优性能。代码已开源。

AI 翻译 · 中文

当前大语言模型后训练中的奖励模型依赖规则验证器、真实参考、程序检查表等异构标准,缺乏统一机制。Skill-RM 将奖励建模重构为可复用的“奖励评估技能”执行过程,通过智能体动态选择和聚合证据,实现一致且透明的评估。在奖励基准和下游任务(如 Best-of-N 选择和强化学习)中,Skill-RM 持续超越传统基线。该方法为奖励建模提供了统一解决方案,并通过策略性证据编排取得更优性能。代码已开源。

arXiv cs.LGReward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous c