BINEVAL：将LLM评估分解为二元问题，提升可解释性与自我改进

精选理由

BINEVAL把LLM评估拆成一堆“是/否”问题，结果好理解、易调试，在事实一致性上比UniEval还准，还能自己优化提示词。

AI 摘要

BINEVAL将评估标准拆解为原子化的二元问题，由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上，BINEVAL匹配或超越UniEval和G-Eval，尤其擅长事实一致性评估（QAGS上的表现突出）。其问题级反馈可用于迭代优化评估提示和生成提示，在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关，且避免了现有LLM评判器的天花板效应。

AI 翻译 · 中文

arXiv cs.AIEvaluating LLM outputs remains a major bottleneck in NLP: human evaluation is expensive and slow, lexical metrics correlate poorly with human judgments on open-ended generation, and holistic LLM judges often produce opaq…

阅读原文