03:47Clement Delangue@ClementDelangue精选Hugging Face CEO Clement Delangue在推特上回应关于模型基准测试的争议,指出闭源API可以通过回退(fallback)机制提升分数,例如Fable 5模型回退到Opus 4.8可能获得更高总分,即使Opus 4.8平均分更低。他以AA基准中的GPQA Diamond和AA-Omniscience为例,说明模型对不同查询的表现不一致,导致回退策略可能掩盖真实能力。Delangue强调,只有API提供商知道实际路由策略,这使得基准测试缺乏透明度。行业Clement DelangueHugging Facebenchmark透明度闭源API推荐理由:揭露闭源API的基准测试猫腻原文
22:25Clement Delangue@ClementDelangueHuggingFace CEO Clement Delangue 在 X 上发帖,指出当前 AI 评测存在结构性缺陷:它们倾向于让闭源 API 受益,因为这些 API 可以在后台进行路由、回退、集成和优化,而缺乏透明度。他以 @ArtificialAnlys 的评测为例,质疑将一个模型与两个模型进行比较是否公平。该帖引发广泛讨论,反映了开源社区对评测标准公正性的担忧。行业AI评测闭源API开源社区透明度HuggingFace推荐理由:AI 评测的公平性直接影响模型选择和技术方向,做模型选型或评测的开发者值得关注这个争议,看完会重新审视排行榜的参考价值。原文