12:56Epoch AI@EpochAIResearch精选Epoch AI 推出了 MirrorCode,一个长周期软件工程基准,允许 AI 模型自主编程数天。最佳模型(如 GPT-4、Claude 3.5)在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务,每个任务需要多步代码修改和调试。结果显示,当前 AI 在处理持续数小时的工程任务时仍面临挑战,但进步显著。AI模型MirrorCodeEpoch AI编程助手基准测试推理模型1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,让 AI 连续写几天代码,最强模型能干人类几周的活,想看看 AI 编程天花板在哪可以关注。原文
12:23Decoder@Matthias Bastian精选Epoch AI 发布新基准 MirrorCode,测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先,曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天,花费 2,600 美元。所有测试模型在最复杂任务上均失败。AI模型MirrorCodeEpoch AIClaude Opus 4.7代码生成基准测试1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半,但最难的题全挂,甚至有个模型烧了 19 天才花掉 2600 刀。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……