07:05Gary Marcus@GaryMarcus精选Gary Marcus 在 X 上引用 METR_Evals 的结果,反驳某英国大报声称 AI 能完成任何人类任务的论断。他指出 Google 连可靠计数都做不到,且 METR 的测试仅针对软件领域,不要求完全准确。许多人类数秒即可完成的任务,AI 仍然无法可靠执行。行业Gary MarcusMETR_EvalsAI能力评估媒体报道Google推荐理由:戳破AI万能论,带你看清真相原文