全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:07

10:07

arXiv cs.LG@Paul He, Shiva Kasiviswanathan, Dominik Janzing

该研究提出了一种基于信息论的多轮对话语义进展度量方法，通过计算对话中问题相关且非冗余信息的累积量来评估对话质量。核心指标使用高斯模型在嵌入空间中近似不确定性减少，具有单调性、可加分解和冗余证据递减等理论性质。实验表明，该方法在MT-Bench、Chatbot Arena和UltraFeedback上与人类判断高度一致，甚至优于部分基于LLM的评判方法。该指标无需自回归推理，仅需轻量级嵌入模型即可在CPU上运行，显著降低了评估成本。

论文多轮对话语义进展信息增益评估指标嵌入模型

推荐理由：做对话系统评估的团队终于有了一个可复现、低成本的替代方案——无需调用大模型就能衡量对话的语义进展，建议做客服或问答系统的开发者试试这个指标。