精选理由
统一了AI评估结果格式
论文提出Every Eval Ever,首个共享元数据模式和社区众包仓库,用于标准化AI评估结果。该模式将评估表示统一为单一JSON文档,支持从评价工具、论文等多种来源导入,并可存储每个实例的输出以进行细粒度分析。当前社区数据库已包含22,235个模型、2,273个独特基准和31种评估格式。论文还提供了自动转换器,从流行格式和评价工具转换到统一模式。
AI 翻译 · 中文
论文提出Every Eval Ever,首个共享元数据模式和社区众包仓库,用于标准化AI评估结果。该模式将评估表示统一为单一JSON文档,支持从评价工具、论文等多种来源导入,并可存储每个实例的输出以进行细粒度分析。当前社区数据库已包含22,235个模型、2,273个独特基准和31种评估格式。论文还提供了自动转换器,从流行格式和评价工具转换到统一模式。
AI evaluations are widely used for testing and understanding progress. However, the diverse evaluators bring with them inconsistencies that challenge analysis and comparison. First, results are saved in incompatible form…