Judge

§ 01综述

LLM-as-Judge 是当前大模型领域常用的评估范式，但近期研究对其可靠性提出质疑。这一范式利用大型语言模型作为评判者，对模型输出进行打分或比较，因其高效、可扩展而被广泛应用于对齐、安全等场景。然而，最新工作揭示了其潜在缺陷：在评估科学新颖性时，LLM-as-Judge 表现出严重的“新颖性幻象”，即倾向于将己有想法误判为新颖，导致评估结果不可靠（LLM-as-Judge 评估科学新颖性不可靠：RQ-Bench 揭示“新颖性幻象”）。与此同时，业界也在积极探索改进路径。LangChain 对比了两种 LLM-as-Judge 评估方式（如基于提示 vs 调用外部知识），并发布了50条标准任务供社区测试（LangChain 对比 LLM-as-judge 两种评估方式：50 条标准任务）。此外，有观点指出，在强化学习后训练中使用 LLM-as-Judge 作为验证器，可能带来成本放大的问题，尤其当评判需要多轮迭代时（RL后训练中验证器成本可能放大，LLM-as-judge 成关键）。当前焦点在于如何校准 LLM-as-Judge 的偏见（如新颖性幻象），并降低其调用成本。未来观察点包括：是否会出现更可靠的混合评估方案，以及 LLM-as-Judge 在医疗等高风险领域的应用边界（例如 Med-HEAL 等研究尝试用上下文学习减少幻觉，但仍需谨慎（Med-HEAL：用幻觉感知上下文学习减少医疗LLM幻觉））。

§ 02相关报道04 条在档

§ 03邻近话题