全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:31

13:31

swyx (AI Engineer)@swyx

73°

METR 发布 FrontierCode 基准测试，发现超过一半的 SWEBench 结果是无法合并的劣质代码。FrontierCode 包含 1000+ 小时维护者验证的软件工程任务，并设有 3000+ 条评分标准，涵盖代码质量和反作弊机制。最难的 FC Diamond 级别中，Opus 4.8 得分仅为 13.8%。该基准将 AI 编程划分为三个时代：2021 年自动补全（HumanEval）、2023 年通过测试（SWEBench）、2026 年可维护代码（FrontierCode）。数据显示，2025 年底模型能力出现跃升，最易任务的通过率在 4 个月内从 41% 提升至 74%，标志着 AI 编程从 2 次重试 95% 成功率到 6 次重试的质变。

AI产品基准测试代码质量 SWEBench FrontierCode AI编程

推荐理由：FrontierCode 戳破了现有基准的泡沫，真正衡量代码可维护性而非通过测试——做 AI 编程工具或智能体开发的团队，建议看看这个新标尺，它可能改变你评估模型的方式。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？