精选理由
OpenAI 自己都觉得旧考试太水了,新评测体系怎么玩?来看看他们怎么重新定义能力
OpenAI frontier evals 负责人 Tejal Patwardhan 指出,现有基准测试如旧考试已变得过于简单,模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架,以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试,确保评测能反映实际进步。
AI 翻译 · 中文
OpenAI frontier evals 负责人 Tejal Patwardhan 指出,现有基准测试如旧考试已变得过于简单,模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架,以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试,确保评测能反映实际进步。
🧵OpenAI 正在重建 AI 评测体系,因为旧考试已经追不上模型 1/ 🧭 旧 benchmark 失效了 OpenAI frontier evals 负责人 Tejal Patwardhan 说,老测试正在变得太简单。 当模型接近 100% 通过同一张卷子,测试就不再能区分能力,只剩刷分。 💬 5 🔄 0 ❤️ 4 👀 2548 📊 5 ⚡ Powered by xgo.ing