03:47Clement Delangue@ClementDelangue精选Hugging Face CEO Clement Delangue在推特上回应关于模型基准测试的争议,指出闭源API可以通过回退(fallback)机制提升分数,例如Fable 5模型回退到Opus 4.8可能获得更高总分,即使Opus 4.8平均分更低。他以AA基准中的GPQA Diamond和AA-Omniscience为例,说明模型对不同查询的表现不一致,导致回退策略可能掩盖真实能力。Delangue强调,只有API提供商知道实际路由策略,这使得基准测试缺乏透明度。行业Clement DelangueHugging Facebenchmark透明度闭源API推荐理由:揭露闭源API的基准测试猫腻原文
00:09AK@_akhaliq精选SpatialWorld 是针对多模态 AI 智能体在真实世界任务中交互式空间推理能力的新基准。该基准涵盖物体操作、路径规划等空间认知场景。测试结果将揭示现有模型在空间理解与动态交互上的局限性。AI模型SpatialWorld多模态空间推理智能体benchmark1 个信源在谈推荐理由:新基准测试AI空间推理原文