全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:31

13:31

swyx (AI Engineer)@swyx

Mythos 正式上线，其 FrontierCode 被认定为下一代编程基准。在 FC Diamond 测试中，Opus 4.8 和 GPT 5.5 在随努力扩展方面表现不佳。Mythos/Fable 的后训练方法首次将测试时计算应用于解决超长任务，相当于数十小时人类工作、每任务数百美元。该功能现已在 Cognition 和 Devin 中可用，仅需 1.4x ACUs。

AI产品编程基准 Mythos FrontierCode Opus 4.8 GPT 5.5 Devin

推荐理由：Mythos 的 FrontierCode 基准揭示了当前顶级模型在长任务上的扩展瓶颈，做 AI 编程评估或开发长流程自动化的团队值得关注，可以直接在 Devin 中体验。

13:31

13:31

swyx (AI Engineer)@swyx

73°

METR 发布 FrontierCode 基准测试，发现超过一半的 SWEBench 结果是无法合并的劣质代码。FrontierCode 包含 1000+ 小时维护者验证的软件工程任务，并设有 3000+ 条评分标准，涵盖代码质量和反作弊机制。最难的 FC Diamond 级别中，Opus 4.8 得分仅为 13.8%。该基准将 AI 编程划分为三个时代：2021 年自动补全（HumanEval）、2023 年通过测试（SWEBench）、2026 年可维护代码（FrontierCode）。数据显示，2025 年底模型能力出现跃升，最易任务的通过率在 4 个月内从 41% 提升至 74%，标志着 AI 编程从 2 次重试 95% 成功率到 6 次重试的质变。

AI产品基准测试代码质量 SWEBench FrontierCode AI编程

推荐理由：FrontierCode 戳破了现有基准的泡沫，真正衡量代码可维护性而非通过测试——做 AI 编程工具或智能体开发的团队，建议看看这个新标尺，它可能改变你评估模型的方式。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

10:03

10:03

Scott Wu@ScottWu46

76°

在 FrontierCode 基准发布仅一天后，Cognition 的 Claude Fable 5 模型即成为新的最高分获得者，尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上，Fable 5 得分从 13.4% 跃升至 29.3%，远超 Opus 的 4.8%。该基准专注于真实世界的工程任务，评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用，为开发者提供更强的编程辅助能力。

AI模型 Claude Fable 5 FrontierCode 基准测试编程助手 Devin

推荐理由：Claude Fable 5 在真实工程任务基准上碾压 Opus，做复杂代码合并的开发者可以直接在 Devin 中体验，效率提升立竿见影。

06:02

06:02

rohanpaul_ai@rohanpaul_ai

本期新闻通讯涵盖多个AI领域重要动态：Claude此前被认为“过于危险”的模型终于公开，但存在使用限制；Cognition推出FrontierCode基准测试，评估AI代码是否达到人类维护者可合并的质量；Claude Fable 5在高级AI研究方面存在隐性限制；Anthropic研究显示AI智能体在编程中表现优异，但在生物学任务中可能从起点就失败；Claude Code团队分享实用技巧以充分发挥其潜力。

行业 Claude FrontierCode AI基准编程助手 AI安全

推荐理由：开发者可关注FrontierCode基准，评估AI代码的真实可维护性；Claude Code用户可借鉴团队技巧提升效率；AI研究者需了解Claude Fable 5的隐性限制。

6月9日

10:03

10:03

shao__meng@shao__meng

精选76°

Cognition 发布 FrontierCode 评估基准，旨在衡量 AI 模型生成代码的“可合并性”，而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务，由 20 多位维护者参与，每个任务耗时 40 小时以上。评估沿六个维度（行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量）打分，并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%，GPT-5.5 为 6.3%，Kimi K2.6 仅 3.8%，显示前沿模型仍有巨大提升空间。

AI模型 Cognition FrontierCode 代码评估可合并性 Claude Opus 4.8

推荐理由：FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”，做代码质量评估或 AI 编程工具的团队可以直接参考这套标准，看看自己的模型在真实维护者眼中能拿几分。

08:46

08:46

Gary Marcus@GaryMarcus

83°

Gary Marcus 发推指出 METR 的编码基准已饱和，但 Cognition 随即推出更难的 FrontierCode 评测，最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计，首次衡量代码是否可合并维护，而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足，为 AI 编程能力评估设立了新标准。

AI模型编码基准 FrontierCode Claude Opus 4.8 代码可维护性 AI 评估

推荐理由：做 AI 编程评估或关注模型实际能力的开发者，这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护，值得看看你的模型能拿几分。