12:56Epoch AI@EpochAIResearch精选Epoch AI 推出了 MirrorCode,一个长周期软件工程基准,允许 AI 模型自主编程数天。最佳模型(如 GPT-4、Claude 3.5)在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务,每个任务需要多步代码修改和调试。结果显示,当前 AI 在处理持续数小时的工程任务时仍面临挑战,但进步显著。AI模型MirrorCodeEpoch AI编程助手基准测试推理模型1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,让 AI 连续写几天代码,最强模型能干人类几周的活,想看看 AI 编程天花板在哪可以关注。原文
12:23Decoder@Matthias Bastian精选Epoch AI 发布新基准 MirrorCode,测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先,曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天,花费 2,600 美元。所有测试模型在最复杂任务上均失败。AI模型MirrorCodeEpoch AIClaude Opus 4.7代码生成基准测试1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半,但最难的题全挂,甚至有个模型烧了 19 天才花掉 2600 刀。原文