信息增益衡量多轮对话语义进展：无需LLM评判的新指标

精选理由

做对话系统评估的团队终于有了一个可复现、低成本的替代方案——无需调用大模型就能衡量对话的语义进展，建议做客服或问答系统的开发者试试这个指标。

AI 摘要

该研究提出了一种基于信息论的多轮对话语义进展度量方法，通过计算对话中问题相关且非冗余信息的累积量来评估对话质量。核心指标使用高斯模型在嵌入空间中近似不确定性减少，具有单调性、可加分解和冗余证据递减等理论性质。实验表明，该方法在MT-Bench、Chatbot Arena和UltraFeedback上与人类判断高度一致，甚至优于部分基于LLM的评判方法。该指标无需自回归推理，仅需轻量级嵌入模型即可在CPU上运行，显著降低了评估成本。

AI 翻译 · 中文

arXiv cs.LGEvaluating multi-turn dialogue is challenging because quality emerges across turns rather than within individual responses. We focus on a key dimension of information-seeking dialogue: semantic progress, defined as the a…

阅读原文