03:47Clement Delangue@ClementDelangue精选Hugging Face CEO Clement Delangue在推特上回应关于模型基准测试的争议,指出闭源API可以通过回退(fallback)机制提升分数,例如Fable 5模型回退到Opus 4.8可能获得更高总分,即使Opus 4.8平均分更低。他以AA基准中的GPQA Diamond和AA-Omniscience为例,说明模型对不同查询的表现不一致,导致回退策略可能掩盖真实能力。Delangue强调,只有API提供商知道实际路由策略,这使得基准测试缺乏透明度。行业Clement DelangueHugging Facebenchmark透明度闭源API推荐理由:揭露闭源API的基准测试猫腻原文
00:09AK@_akhaliq精选SpatialWorld 是针对多模态 AI 智能体在真实世界任务中交互式空间推理能力的新基准。该基准涵盖物体操作、路径规划等空间认知场景。测试结果将揭示现有模型在空间理解与动态交互上的局限性。AI模型SpatialWorld多模态空间推理智能体benchmark1 个信源在谈推荐理由:新基准测试AI空间推理原文
00:20OpenAI Blog(博客/媒体)75°OpenAI发布Gym公测版,这是一个用于开发和比较强化学习算法的标准化工具包,包含从模拟机器人到Atari游戏等丰富的环境集合。同时提供结果比较和复现平台,旨在推动RL研究的可复现性和标准化。AI产品reinforcement-learningopen-sourcebenchmarktoolkit1 个信源在谈推荐理由:为AI从业者提供了一个统一的强化学习基准平台,极大降低了算法测试与对比的门槛,是RL研究的必备基础设施。原文
00:17OpenAI Blog(博客/媒体)精选80°OpenAI开源Universe平台,提供一个包含游戏、网站等多样化环境的测试平台,用于衡量和训练AI的通用智能。该平台通过标准化接口,让AI代理能像人类一样与各类应用交互,加速通用人工智能研究。AI产品openaiagireinforcement-learningopen-sourcebenchmark1 个信源在谈推荐理由:Universe为AI研究者提供了首个大规模、标准化的通用智能评估环境,直接推动AGI训练与基准测试发展。原文