23:18LangChain@LangChainAILangChain 指出,在强化学习后训练阶段,使用 LLM 作为评判(LLM-as-judge)系统将任务规则转化为奖励信号时,验证器成本可能显著放大。更便宜的奖励信号使得运行更多实验、审计更多 rollout 和更快迭代变得可行。这一发现对 AI 模型的后训练效率有重要影响,尤其适用于需要大量强化学习迭代的团队。AI模型RL后训练LLM-as-judge验证器成本奖励信号LangChain推荐理由:做 RL 后训练的团队注意了——验证器成本可能成为瓶颈,而 LLM-as-judge 的性价比直接决定迭代速度,建议点开看看怎么优化。原文
22:13LangChain@LangChainAILangChain 在一条推文中比较了两种用 LLM 作为评判者(LLM-as-judge)评估 50 条标准任务的方法:逐条评估(per-criterion)和批量评估(batch)。逐条评估为每条标准单独调用一次评判,共需 50 次 API 调用;批量评估则一次调用同时标注所有标准,仅需 1 次 API 调用,减少了 50 倍的 API 调用次数。两种方法使用相同的评估标准和输出,但批量评估在效率上显著提升。这对于需要大规模评估 AI 输出的开发者和团队来说,是一个重要的成本优化方向。AI产品LLM-as-judge评估方法API 调用优化LangChain批量评估推荐理由:做 LLM 评估的团队终于有了省 API 调用的思路——批量评估 50 条标准只需 1 次调用,成本直降 50 倍,建议做自动化评测的开发者点开看看。原文
11:42arXiv cs.AI(学术论文)70°该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架,将奖励分解为多个可验证的加权标准,由冻结的LLM评判器给每个回应评分,从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则,并利用GRPO方法微调Llama-3.1-8B-Instruct模型,在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明,结构化、文档依赖的奖励能够改善保留评判规则的性能,并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。论文推理模型强化学习LLM-as-judgeGRPO泛化性推荐理由:该研究通过分解奖励为多标准评判规则,实现了更细粒度的优化信号,在多个推理基准上验证了迁移效果,对大模型推理能力的训练方法有重要参考价值。原文