BINEVAL：LLM-as-judge 的原子是非问题分解评估方法

精选理由

如果你用 LLM 做评估，这个方法比传统打分更透明——拆成原子问题逐一判断，还能直接帮你改进提示词。

AI 摘要

BINEVAL 将每个评估标准分解为原子的是非问题，独立回答每个输出，再聚合为校准的多维分数。在 SummEval、Topical-Chat 和 QAGS 三个基准上，它无需训练即匹配或超越了 UniEval 和 G-Eval，尤其在事实一致性上表现突出。每个问题级别的裁决都可检查，帮助诊断输出得分低的原因，并直接用于提示改进信号。论文 arxiv.org/abs/2606.27226 详细介绍了该方法。

AI 翻译 · 中文

elvisIf you use LLM-as-judge, this one is worth reading. (bookmark it) It's actually one of the most effective ways to use LLM-as-a-Judge for evals. Holistic judge scores hide both their reasoning and their ceiling effect…

查看原推