11:39arXiv cs.AI@Sangwoo Cho, Kushal Chawla, Pengshan Cai, Zefang Liu, Chenyang Zhu, Shi-Xiong Zhang, Sambit SahuBINEVAL将评估标准拆解为原子化的二元问题,由LLM独立回答后聚合为多维可解释分数。在SummEval、Topical-Chat和QAGS三个基准上,BINEVAL匹配或超越UniEval和G-Eval,尤其擅长事实一致性评估(QAGS上的表现突出)。其问题级反馈可用于迭代优化评估提示和生成提示,在IFBench的自我更新和跨模型更新设置中均有效。该方法无需训练、任务无关,且避免了现有LLM评判器的天花板效应。论文BINEVALLLM评估可解释性事实一致性自我改进推荐理由:BINEVAL把LLM评估拆成一堆“是/否”问题,结果好理解、易调试,在事实一致性上比UniEval还准,还能自己优化提示词。原文