judge·general

Judge

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
12
§ 01综述

LLM-as-Judge 是当前大模型领域常用的评估范式,但近期研究对其可靠性提出质疑。这一范式利用大型语言模型作为评判者,对模型输出进行打分或比较,因其高效、可扩展而被广泛应用于对齐、安全等场景。然而,最新工作揭示了其潜在缺陷:在评估科学新颖性时,LLM-as-Judge 表现出严重的“新颖性幻象”,即倾向于将己有想法误判为新颖,导致评估结果不可靠(LLM-as-Judge 评估科学新颖性不可靠:RQ-Bench 揭示“新颖性幻象”)。与此同时,业界也在积极探索改进路径。LangChain 对比了两种 LLM-as-Judge 评估方式(如基于提示 vs 调用外部知识),并发布了50条标准任务供社区测试(LangChain 对比 LLM-as-judge 两种评估方式:50 条标准任务)。此外,有观点指出,在强化学习后训练中使用 LLM-as-Judge 作为验证器,可能带来成本放大的问题,尤其当评判需要多轮迭代时(RL后训练中验证器成本可能放大,LLM-as-judge 成关键)。当前焦点在于如何校准 LLM-as-Judge 的偏见(如新颖性幻象),并降低其调用成本。未来观察点包括:是否会出现更可靠的混合评估方案,以及 LLM-as-Judge 在医疗等高风险领域的应用边界(例如 Med-HEAL 等研究尝试用上下文学习减少幻觉,但仍需谨慎(Med-HEAL:用幻觉感知上下文学习减少医疗LLM幻觉))。

§ 02相关报道04 条在档
  1. 01
    LLM-as-Judge 评估科学新颖性不可靠:RQ-Bench 揭示“新颖性幻象”
    arXiv cs.AI
  2. 02
    RL后训练中验证器成本可能放大,LLM-as-judge 成关键
    LangChain
  3. 03
    LangChain 对比 LLM-as-judge 两种评估方式:50 条标准任务
    LangChain
  4. 04
    Med-HEAL:用幻觉感知上下文学习减少医疗LLM幻觉
    arXiv: DeepSeek
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Judge