精选理由
AI 评测的公平性直接影响模型选择和技术方向,做模型选型或评测的开发者值得关注这个争议,看完会重新审视排行榜的参考价值。
HuggingFace CEO Clement Delangue 在 X 上发帖,指出当前 AI 评测存在结构性缺陷:它们倾向于让闭源 API 受益,因为这些 API 可以在后台进行路由、回退、集成和优化,而缺乏透明度。他以 @ArtificialAnlys 的评测为例,质疑将一个模型与两个模型进行比较是否公平。该帖引发广泛讨论,反映了开源社区对评测标准公正性的担忧。
AI 翻译 · 中文
HuggingFace CEO Clement Delangue 在 X 上发帖,指出当前 AI 评测存在结构性缺陷:它们倾向于让闭源 API 受益,因为这些 API 可以在后台进行路由、回退、集成和优化,而缺乏透明度。他以 @ArtificialAnlys 的评测为例,质疑将一个模型与两个模型进行比较是否公平。该帖引发广泛讨论,反映了开源社区对评测标准公正性的担忧。
This graph captures what’s broken about AI evals: they structurally favor closed-source APIs that can route, fallback, ensemble, and optimize behind the scenes with no transparency. No offense, @ArtificialAnlys , but how…