MirrorCode 基准测试：Claude Opus 4.7 以 56% 解决率领先，但最复杂任务仍失败

精选理由

Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

AI 摘要

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI 翻译 · 中文

DecoderEpoch AI's new MirrorCode benchmark tests whether AI models can recreate complete programs without access to the original code. Claude Opus 4.7 leads with a 56 percent solve rate, rebuilding a 16,000-line toolkit in just…

Epoch AI06-27 04:56原文

阅读原文