Clement Delangue 指出闭源API用回退策略使AI基准测试不公平

精选理由

揭露闭源API的基准测试猫腻

AI 摘要

Hugging Face CEO Clement Delangue在推特上回应关于模型基准测试的争议，指出闭源API可以通过回退（fallback）机制提升分数，例如Fable 5模型回退到Opus 4.8可能获得更高总分，即使Opus 4.8平均分更低。他以AA基准中的GPQA Diamond和AA-Omniscience为例，说明模型对不同查询的表现不一致，导致回退策略可能掩盖真实能力。Delangue强调，只有API提供商知道实际路由策略，这使得基准测试缺乏透明度。

AI 翻译 · 中文

Clement DelangueTo people in the answers saying "but opus 4.8 is weaker so without fallback, the score would even be higher": this is not necessarily true because of how any benchmark - which is an average of queries - work an…

查看原推