03:07elvis@omarsar0精选BINEVAL 将每个评估标准分解为原子的是非问题,独立回答每个输出,再聚合为校准的多维分数。在 SummEval、Topical-Chat 和 QAGS 三个基准上,它无需训练即匹配或超越了 UniEval 和 G-Eval,尤其在事实一致性上表现突出。每个问题级别的裁决都可检查,帮助诊断输出得分低的原因,并直接用于提示改进信号。论文 arxiv.org/abs/2606.27226 详细介绍了该方法。论文BINEVALLLM-as-a-Judge评估UniEvalG-Eval推荐理由:如果你用 LLM 做评估,这个方法比传统打分更透明——拆成原子问题逐一判断,还能直接帮你改进提示词。原文