前沿AI评估的贝叶斯推断与决策审计

Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations

精选理由

这篇论文用贝叶斯方法检查了LiveBench等公共AI评估档案,发现很多宣称有问题,帮你判断哪些基准成绩可信。

AI 摘要

公共AI评估常被当作终极排行榜,但实际证据是受报告规则和基准修订影响的选择性时间序列。研究使用LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench等档案进行贝叶斯推断。在固定报告约定下,一个仅包含1000个系统的终端示例与两个终端前历史兼容,在相同尾部模型下达到距离上限0.05内所需时间分别为23.03或75.13。候选选择感知的前沿模型在综合后验比较中失败。提出的档案与裁决协议重构了公共评估历史,验证了时间边界并驳斥了无支持的前沿声称。

AI 翻译 · 中文

公共AI评估常被当作终极排行榜,但实际证据是受报告规则和基准修订影响的选择性时间序列。研究使用LiveBench、Open LLM Leaderboard v2、LMArena、GAIA和tau-bench等档案进行贝叶斯推断。在固定报告约定下,一个仅包含1000个系统的终端示例与两个终端前历史兼容,在相同尾部模型下达到距离上限0.05内所需时间分别为23.03或75.13。候选选择感知的前沿模型在综合后验比较中失败。提出的档案与裁决协议重构了公共评估历史,验证了时间边界并驳斥了无支持的前沿声称。

arXiv cs.AIPublic AI evaluations are often read as terminal leaderboards, yet the underlying evidence is a selective time series shaped by reporting rules, benchmark revisions, and missingness. Repeated public archives for LiveBenc