全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

12:13

12:13

arXiv cs.LG@Anany Kotawala

该论文指出，在 Open LLM Leaderboard v1 和 MMLU-Pro 等公开排行榜中，许多配对排名在常规配对检验分辨率目标下未达标。具体而言，40 个 Open LLM Leaderboard v1 配对比较中有 11 个、9 个 MMLU-Pro 相邻排名对中有 4 个在显著性水平 0.05、检验功效 0.8 下无法分辨。MMLU-Pro 在真实主题级聚类下问题更严重，9 个中有 6 个不达标。研究将配对 LLM 评估视为假设检验问题，提出分辨率比 q = N/N* 作为核心诊断指标。同时发现，广泛使用的非配对 Cohen-h 加 (1-rho) 简化方法在接近比较场景下会低估所需样本量约两倍，导致多个主流计算工具（Cohen 1988、G*Power、R pwr）继承这一缺陷。即使采用多重校正和时序检验，不达标模式依然存在。

论文 LLM评估统计检验排行榜配对比较样本量计算

推荐理由：这篇论文戳破了 LLM 排行榜的统计幻觉——很多排名差异其实不显著，做模型评估的团队和关注排行榜的开发者看完会重新审视自己的比较方法。建议点开，避免被虚假的排名差异误导。