这篇论文戳破了 LLM 排行榜的统计幻觉——很多排名差异其实不显著,做模型评估的团队和关注排行榜的开发者看完会重新审视自己的比较方法。建议点开,避免被虚假的排名差异误导。
该论文指出,在 Open LLM Leaderboard v1 和 MMLU-Pro 等公开排行榜中,许多配对排名在常规配对检验分辨率目标下未达标。具体而言,40 个 Open LLM Leaderboard v1 配对比较中有 11 个、9 个 MMLU-Pro 相邻排名对中有 4 个在显著性水平 0.05、检验功效 0.8 下无法分辨。MMLU-Pro 在真实主题级聚类下问题更严重,9 个中有 6 个不达标。研究将配对 LLM 评估视为假设检验问题,提出分辨率比 q = N/N* 作为核心诊断指标。同时发现,广泛使用的非配对 Cohen-h 加 (1-rho) 简化方法在接近比较场景下会低估所需样本量约两倍,导致多个主流计算工具(Cohen 1988、G*Power、R pwr)继承这一缺陷。即使采用多重校正和时序检验,不达标模式依然存在。
该论文指出,在 Open LLM Leaderboard v1 和 MMLU-Pro 等公开排行榜中,许多配对排名在常规配对检验分辨率目标下未达标。具体而言,40 个 Open LLM Leaderboard v1 配对比较中有 11 个、9 个 MMLU-Pro 相邻排名对中有 4 个在显著性水平 0.05、检验功效 0.8 下无法分辨。MMLU-Pro 在真实主题级聚类下问题更严重,9 个中有 6 个不达标。研究将配对 LLM 评估视为假设检验问题,提出分辨率比 q = N/N* 作为核心诊断指标。同时发现,广泛使用的非配对 Cohen-h 加 (1-rho) 简化方法在接近比较场景下会低估所需样本量约两倍,导致多个主流计算工具(Cohen 1988、G*Power、R pwr)继承这一缺陷。即使采用多重校正和时序检验,不达标模式依然存在。
Across two public LLM leaderboards, many displayed pairwise rankings do not meet a conventional paired-test resolution target under the actual paired evaluation design: 11 of 40 Open LLM Leaderboard v1 pairwise compariso…