全部 AI 动态 · AI 热点

6月27日

12:56

Epoch AI@EpochAIResearch

精选

Epoch AI 推出了 MirrorCode，一个长周期软件工程基准，允许 AI 模型自主编程数天。最佳模型（如 GPT-4、Claude 3.5）在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务，每个任务需要多步代码修改和调试。结果显示，当前 AI 在处理持续数小时的工程任务时仍面临挑战，但进步显著。

AI模型 MirrorCode Epoch AI 编程助手基准测试推理模型

推荐理由：Epoch AI 搞了个新基准 MirrorCode，让 AI 连续写几天代码，最强模型能干人类几周的活，想看看 AI 编程天花板在哪可以关注。

原文

12:23

Decoder@Matthias Bastian

精选

Epoch AI 发布新基准 MirrorCode，测试 AI 模型能否在无原始代码时重建完整程序。Claude Opus 4.7 以 56% 的解决率领先，曾在 14 小时内重建 16,000 行工具包。个别模型为单个 MirrorCode 任务连续运行 19 天，花费 2,600 美元。所有测试模型在最复杂任务上均失败。

AI模型 MirrorCode Epoch AI Claude Opus 4.7 代码生成基准测试

推荐理由：Epoch AI 搞了个新基准 MirrorCode，专测 AI 能不能凭空抄作业。Claude Opus 4.7 解了一半，但最难的题全挂，甚至有个模型烧了 19 天才花掉 2600 刀。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月13日

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

11:50

Epoch AI@EpochAIResearch

Epoch AI Research 数据显示，AI 相关投资（数据中心建设、计算硬件和网络设备）在 2026 年第一季度约占美国 GDP 的 0.8%，推动整个计算基础设施占比达到约 1.5%。这一比例相比此前翻倍，反映了 AI 产业对经济的巨大拉动作用。投资主要集中在数据中心、GPU 等硬件和网络设备上，表明 AI 基础设施已成为经济增长的重要驱动力。

行业 AI 基础设施美国 GDP 数据中心投资趋势 Epoch AI

推荐理由：AI 基础设施投资占 GDP 比例翻倍，说明 AI 产业正在重塑经济结构，关注宏观趋势的投资者和科技从业者值得了解这一信号。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月31日

09:58

elvis@omarsar0

行业开源模型闭源模型能力差距 Epoch AI 行业趋势

推荐理由：开源模型追赶速度超出预期，做模型选型或关注AI生态的开发者值得关注这一趋势，直接了解开源模型的最新进展。

原文

5月30日

16:06

Gary Marcus@GaryMarcus

精选

行业开源模型闭源模型能力差距 Epoch AI 商业模式

推荐理由：开源模型与闭源模型的差距被量化了——4个月的滞后对AI开发者和企业技术决策者来说是个关键信号，值得关注开源生态能否缩小这一差距。

原文