OpenAI 重建 AI 评测体系，旧基准已无法区分能力

精选理由

OpenAI 自己都觉得旧考试太水了，新评测体系怎么玩？来看看他们怎么重新定义能力

AI 摘要

OpenAI frontier evals 负责人 Tejal Patwardhan 指出，现有基准测试如旧考试已变得过于简单，模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架，以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试，确保评测能反映实际进步。

AI 翻译 · 中文

AI Will🧵OpenAI 正在重建 AI 评测体系，因为旧考试已经追不上模型 1/ 🧭 旧 benchmark 失效了 OpenAI frontier evals 负责人 Tejal Patwardhan 说，老测试正在变得太简单。当模型接近 100% 通过同一张卷子，测试就不再能区分能力，只剩刷分。 💬 5 🔄 0 ❤️ 4 👀 2548 📊 5 ⚡ Powered by xgo.ing

kimmonismus06-15 18:41原文
Decoder06-16 11:28原文
OpenAI Blog06-17 00:00原文
Aadit Sheth06-17 19:22原文
向阳乔木06-15 11:34原文
pandaily06-16 08:08原文
IT之家06-16 09:02原文
Gary Marcus06-16 18:27原文
@koltregaskes06-16 19:35原文
Jim Fan06-16 21:51原文

查看原推