LLM-as-Judge 是当前大模型领域常用的评估范式,但近期研究对其可靠性提出质疑。这一范式利用大型语言模型作为评判者,对模型输出进行打分或比较,因其高效、可扩展而被广泛应用于对齐、安全等场景。然而,最新工作揭示了其潜在缺陷:在评估科学新颖性时,LLM-as-Judge 表现出严重的“新颖性幻象”,即倾向于将己有想法误判为新颖,导致评估结果不可靠(LLM-as-Judge 评估科学新颖性不可靠:RQ-Bench 揭示“新颖性幻象”)。与此同时,业界也在积极探索改进路径。LangChain 对比了两种 LLM-as-Judge 评估方式(如基于提示 vs 调用外部知识),并发布了50条标准任务供社区测试(LangChain 对比 LLM-as-judge 两种评估方式:50 条标准任务)。此外,有观点指出,在强化学习后训练中使用 LLM-as-Judge 作为验证器,可能带来成本放大的问题,尤其当评判需要多轮迭代时(RL后训练中验证器成本可能放大,LLM-as-judge 成关键)。当前焦点在于如何校准 LLM-as-Judge 的偏见(如新颖性幻象),并降低其调用成本。未来观察点包括:是否会出现更可靠的混合评估方案,以及 LLM-as-Judge 在医疗等高风险领域的应用边界(例如 Med-HEAL 等研究尝试用上下文学习减少幻觉,但仍需谨慎(Med-HEAL:用幻觉感知上下文学习减少医疗LLM幻觉))。
№judge·general
Judge
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-11
- 累计提及
- 12
§ 01综述
§ 02相关报道04 条在档
§ 03邻近话题