BINEVAL:将LLM评估分解为二元问题,提升可解释性与自我改进

Ask, Don't Judge: Binary Questions for Interpretable LLM Evaluation and Self-Improvement

精选理由

BINEVAL把LLM评估拆成一堆“是/否”问题,结果好理解、易调试,在事实一致性上比UniEval还准,还能自己优化提示词。

AI 摘要

BINEVAL将评估标准拆解为原子化的二元问题,由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上,BINEVAL匹配或超越UniEval和G-Eval,尤其擅长事实一致性评估(QAGS上的表现突出)。其问题级反馈可用于迭代优化评估提示和生成提示,在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关,且避免了现有LLM评判器的天花板效应。

AI 翻译 · 中文

BINEVAL将评估标准拆解为原子化的二元问题,由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上,BINEVAL匹配或超越UniEval和G-Eval,尤其擅长事实一致性评估(QAGS上的表现突出)。其问题级反馈可用于迭代优化评估提示和生成提示,在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关,且避免了现有LLM评判器的天花板效应。

arXiv cs.AIEvaluating LLM outputs remains a major bottleneck in NLP: human evaluation is expensive and slow, lexical metrics correlate poorly with human judgments on open-ended generation, and holistic LLM judges often produce opaq