精选理由
揭露闭源API的基准测试猫腻
Hugging Face CEO Clement Delangue在推特上回应关于模型基准测试的争议,指出闭源API可以通过回退(fallback)机制提升分数,例如Fable 5模型回退到Opus 4.8可能获得更高总分,即使Opus 4.8平均分更低。他以AA基准中的GPQA Diamond和AA-Omniscience为例,说明模型对不同查询的表现不一致,导致回退策略可能掩盖真实能力。Delangue强调,只有API提供商知道实际路由策略,这使得基准测试缺乏透明度。
AI 翻译 · 中文
Hugging Face CEO Clement Delangue在推特上回应关于模型基准测试的争议,指出闭源API可以通过回退(fallback)机制提升分数,例如Fable 5模型回退到Opus 4.8可能获得更高总分,即使Opus 4.8平均分更低。他以AA基准中的GPQA Diamond和AA-Omniscience为例,说明模型对不同查询的表现不一致,导致回退策略可能掩盖真实能力。Delangue强调,只有API提供商知道实际路由策略,这使得基准测试缺乏透明度。
To people in the answers saying "but opus 4.8 is weaker so without fallback, the score would even be higher": this is not necessarily true because of how any benchmark - which is an average of queries - work an…