精选 AI 资讯 · AI 热点

6月27日

12:56

12:56

Epoch AI@EpochAIResearch

精选

Epoch AI 推出了 MirrorCode，一个长周期软件工程基准，允许 AI 模型自主编程数天。最佳模型（如 GPT-4、Claude 3.5）在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务，每个任务需要多步代码修改和调试。结果显示，当前 AI 在处理持续数小时的工程任务时仍面临挑战，但进步显著。

AI模型 MirrorCode Epoch AI 编程助手基准测试推理模型

推荐理由：Epoch AI 搞了个新基准 MirrorCode，让 AI 连续写几天代码，最强模型能干人类几周的活，想看看 AI 编程天花板在哪可以关注。

12:23

12:23

Decoder@Matthias Bastian

精选

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI模型 MirrorCode Epoch AI Claude Opus 4.7 代码生成基准测试

推荐理由：Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？