新基准暴露AI在知识工作中表现糟糕，最佳模型仅完成3%任务

精选理由

这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作，别看平时吹得厉害。

AI 摘要

一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型，也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。

AI 翻译 · 中文

DecoderEven the best AI model fails at realistic knowledge work, fully solving just 3 percent of tasks. The article New benchmark exposes how badly AI struggles with real knowledge work appeared first on The Decoder .

阅读原文