精选理由
这个新基准狠狠打了AI的脸——最强模型也只完成3%的真实知识工作,别看平时吹得厉害。
一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型,也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。
AI 翻译 · 中文
一项新基准测试评估了AI处理真实知识工作的能力。即使是最先进的AI模型,也仅能完全解决3%的任务。这一结果凸显了当前AI在处理复杂、多步骤的知识工作方面仍存在巨大短板。
Even the best AI model fails at realistic knowledge work, fully solving just 3 percent of tasks. The article New benchmark exposes how badly AI struggles with real knowledge work appeared first on The Decoder .