全部 AI 动态 · AI 热点

6月30日

03:07

@koltregaskes@koltregaskes

Ethan Mollick根据Artificial Analysis的AA-Briefcase分数，绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平，与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先，但差距在缩小。

AI模型 GLM-5.2 AA-Briefcase 开源模型智能体基准测试

推荐理由：开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了，做复杂任务时值得试试看。

原文

6月29日

17:45

Browser Use@browser_use

Browser Use 团队使用 v4 版本构建 QA 基准测试，将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分，测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。

AI模型 GLM 5.2 Opus 4.7 GPT 5.5 Minimax M3 基准测试

推荐理由：他们用 Browser Use v4 搞了个新基准，测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3，人工打分告诉你谁在 QA 任务上更强。

原文

13:51

Together AI@togethercompute

精选

Together Compute推出ParallelKernelBench开放基准测试，专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题，性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。

AI模型 ParallelKernelBench Together Compute CUDA NVLink 基准测试

推荐理由：Together Compute搞了个ParallelKernelBench，专门测LLM能不能写好复杂的多GPU内核，比单GPU难多了，感兴趣的话可以去现场听分享。

原文

13:51

Together AI@togethercompute

精选

ParallelKernelBench评估了LLMs编写多GPU内核的能力，包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好，但在多GPU场景下完全失败。该研究由Willy Chan等人完成，揭示了当前LLM在多GPU编程中的核心缺陷。

AI模型 ParallelKernelBench Megatron-LM DeepSpeed 多GPU 基准测试

推荐理由：新基准ParallelKernelBench发现，LLM写单GPU代码还行，但多个GPU一起就瞎了。想看看AI编程到底卡在哪？

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，如果基准测试依赖静态数据集或训练时已知的静态分布，那么它本质上衡量的是记忆/检索，而非智能。他以 ARC 挑战为例，说明现有基准容易因数据泄露而失效，并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试，如基于动态环境的评估。

行业 François Chollet 基准测试智能测评记忆检索 ARC

推荐理由：Chollet 点破了基准测试的痛点：很多高分模型只是背答案，不是真聪明。做评测的值得看看。

原文

01:42

OpenRouter@OpenRouterAI

OpenRouter 持续对大多数开源权重模型运行 GPQA 与 TAU-Bench 两个基准，并将结果公开。这些成绩被用于其 AutoExacto 元基准，后者是路由工具调用的默认依据。当前 Parasail 和 Zai 在排行榜上位列第一。

技巧 OpenRouter GPQA TAU-Bench AutoExacto 基准测试

推荐理由：选模型路由工具前，看看 OpenRouter 定期跑的 GPQA 和 TAU-Bench 排名，现在 Parasail 和 Zai 排第一，挺有参考价值。

原文

6月27日

12:56

Epoch AI@EpochAIResearch

精选

Epoch AI 推出了 MirrorCode，一个长周期软件工程基准，允许 AI 模型自主编程数天。最佳模型（如 GPT-4、Claude 3.5）在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务，每个任务需要多步代码修改和调试。结果显示，当前 AI 在处理持续数小时的工程任务时仍面临挑战，但进步显著。

AI模型 MirrorCode Epoch AI 编程助手基准测试推理模型

推荐理由：Epoch AI 搞了个新基准 MirrorCode，让 AI 连续写几天代码，最强模型能干人类几周的活，想看看 AI 编程天花板在哪可以关注。

原文

12:16

Geek@geekbb

Nous Research 推出了 Hermes Agent，通过暴露 MoA（混合代理）预设作为虚拟模型，提供超越公开前沿模型的能力。在即将发布的基准测试中，Hermes Agent 成绩比 Opus 4.8 高 8%，比 GPT 5.5 高 11%。该模型目前仅限部分用户访问。

AI模型 Hermes Agent Nous Research MoA 基准测试

推荐理由：Nous Research 搞了个新东西，用 MoA 预设做虚拟模型，比 Opus 4.8 和 GPT 5.5 都强，值得看看。

原文

6月26日

02:46

OpenRouter@OpenRouterAI

精选

OpenRouter 正式推出官方 MCP 服务，让 AI 代理能实时查询模型定价、基准成绩和流行度数据。该服务可避免代理在代码中硬编码错误的模型 slug。视频演示显示代理能够动态选择模型、获取价格并测试性能。这使代理不再依赖六个月前的训练数据猜测模型选择。

AI产品 OpenRouter MCP 模型定价基准测试代理工具

推荐理由：OpenRouter 出了个 MCP，你的代理能实时查模型价格和排名，再也不怕写错模型名了。

原文

6月25日

01:18

Jerry Liu@jerryjliu0

精选

Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出，能准确处理删除线、上下标、标题层级和链接。在内容忠实度（阅读顺序、幻觉、遗漏）和视觉定位（边界框）上也具有竞争力。表格处理能力一般，几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。

AI模型 Mistral OCR ParseBench OCR 语义格式化基准测试

推荐理由：Mistral OCR 在 ParseBench 上语义格式化很强，价格还比 Azure/AWS 便宜，适合做高质量 OCR 又不愿花大价钱的场景。

原文

6月23日

03:55

lmarena.ai@lmarena_ai

精选

技巧 Arena LMSYS 模型评测基准测试 Bradley-Terry

推荐理由：想了解AI模型评测怎么运作的？Arena团队亲自拆解从内测到上线的完整评估流程，还讲了Bradley-Terry分数如何保证公平，干货满满。

原文

6月18日

13:00

@atomic_chat_hq@atomic_chat_hq

StepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画，包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒)，DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快，但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。

AI模型 Step 3.7 Flash DeepSeek V4-Flash StepFun 代码生成基准测试

推荐理由：StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了，慢点但模拟和画面都好很多。

原文

05:23

OpenAI@OpenAI

OpenAI推出LifeSciBench，这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景，帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作，以共同改进AI。具体评估指标和测试集细节尚待公开。

AI模型 LifeSciBench OpenAI 基准测试生命科学

推荐理由：OpenAI搞了个LifeSciBench，专门测AI在生命科学上的表现，比以前的评估更贴近真实场景，想了解差距的可以看看。

原文

02:39

Firecrawl@firecrawl_dev

Firecrawl 的 AI 研发工程师通过索引查询论文、代码和技术讨论。在内部研究基准中，其召回率比 Exa 高 30%，比 Parallel 高 250%。目前已被多个领先研究团队采用。

AI产品 Firecrawl Exa Parallel 搜索召回基准测试

推荐理由：Firecrawl 搜索召回比 Exa 强 30%，比 Parallel 猛 250%，做研究查资料可以试试它。

原文

6月17日

23:18

AI Will@FinanceYF5

精选

OpenAI frontier evals 负责人 Tejal Patwardhan 指出，现有基准测试如旧考试已变得过于简单，模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架，以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试，确保评测能反映实际进步。

行业 OpenAI Tejal Patwardhan 评测体系基准测试 AI安全

推荐理由：OpenAI 自己都觉得旧考试太水了，新评测体系怎么玩？来看看他们怎么重新定义能力

原文

06:57

Jim Fan@jimfan

在一项无法在物理世界中被攻破的基准测试中，OpenAI Codex 的表现超越 Anthropic Claude，而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出，专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。

AI模型 Codex Claude Kimi 基准测试物理世界

推荐理由：英伟达科学家发推说他们论文里 Codex 把 Claude 和 Kimi 都干掉了，还是物理世界实测，看看你家模型排第几。

原文

04:49

阿里通义 Qwen@Alibaba_Qwen

精选72°

Qwen-RobotWorld由阿里巴巴Qwen团队发布，将自然语言视为通用动作接口，统一末端执行器姿态、转向命令和导航点。该模型在具身世界知识语料库（860万视频-文本对、超2亿帧）上联合训练20+种具身类型和500+个动作类别。在EWMBench、DreamGen、WorldModelBench、PBench等基准测试中表现强劲。这一方法桥接了通用视频生成模型与领域专用具身模型之间的鸿沟。

AI模型 Qwen-RobotWorld 阿里巴巴具身智能视频生成基准测试

推荐理由：Qwen把自然语言当遥控器，一个模型搞定机器臂、自动驾驶、无人机等20多种动作，还赢了多个基准，挺有意思。

原文

03:35

@koltregaskes@koltregaskes

AI模型 Fable 5 模型排行榜基准测试

推荐理由：Fable 5 在排行榜上把其他模型都压下去了，看看它到底强在哪

原文

03:28

lmarena.ai@lmarena_ai

Agent Arena 是一个智能体性能排行榜，现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室（lab）筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。

AI模型 Agent Arena 智能体排行榜基准测试开放模型

推荐理由：想比对比不同智能体模型？去Agent Arena排行榜，能按开放模型或实验室筛选，帮你找到合适的。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:55

@hebbia@hebbia

71°

在Hebbia金融服务业基准测试中，Anthropic的Fable 5模型总分超过所有其他前沿模型。该模型在基于文档的推理任务上提升显著，并在图表与表格解读、问题解决两个子项中取得最高分。测试结果来自Hebbia发布的金融行业专属评测集，涵盖多个复杂金融场景。

AI模型 Fable 5 Anthropic Hebbia 基准测试金融AI

推荐理由：Hebbia测了金融场景，Fable 5在文档推理和图表解读上碾压其他模型，搞金融AI的可以看看具体分数对比。

原文

10:07

Gary Marcus@GaryMarcus

Anthropic 发布的 Claude Fable 5 在 Epoch AI 的 Epoch Capabilities Index 上获得 161 分，以 1 分之差超越 GPT-5.5 Pro 的 160 分。这是 Anthropic 一年多来首次在该基准上领先。该指数综合评估模型能力，当前最高分为 161。尽管成绩创下新高，但专家指出进步幅度仍属渐进。

AI模型 Claude Fable 5 GPT-5.5 Pro Anthropic Epoch Capabilities Index 基准测试

推荐理由：Claude Fable 5 刚在 Epoch 能力指数上以 161 分微弱领先 GPT-5.5 Pro，这是 Anthropic 一年多来首次登顶，你可以看看它具体强在哪。

原文

6月14日

06:09

rohanpaul_ai@rohanpaul_ai

精选

一项新研究提出了HLL基准测试，要求AI智能体完成10种CAPTCHA任务，包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现，即使强大的智能体在静态任务中表现良好，但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力，结果显示当前AI智能体难以通过此类验证。

论文 HLL CAPTCHA 智能体基准测试 AI安全

推荐理由：看看AI怎么被CAPTCHA难倒的

原文

6月13日

12:58

lmarena.ai@lmarena_ai

Claude Fable-5 在 Agent Arena 排行榜上展示了其技术细节，该模型在多个基准测试中表现突出。具体数据显示，Fable-5 在任务完成率上达到 92.3%，相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。

AI模型 Claude Fable-5 Agent Arena 基准测试智能体

推荐理由：看 Fable-5 在 Agent Arena 上的具体数据

原文

6月12日

15:09

Artificial Analysis@ArtificialAnlys

73°

Artificial Analysis 更新了其编程智能体指数，用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务，避免模型从公开 GitHub 问题或 PR 中记忆答案，解决了原基准可被游戏化的问题。更新后，Codex with GPT-5.5 (xhigh) 得分从 65 升至 76，超越 Claude Code with Opus 4.8 (max) 的 73 分；新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。

AI产品编程智能体基准测试 Claude Fable 5 GPT-5.5 DeepSWE

推荐理由：基准测试更新直接影响了主流编程智能体的排名，做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶，Codex 也大幅提升，建议点开看具体得分和对比。

原文

14:45

Philipp Schmid@_philschmid

Agent's Last Exam 是一个全新的AI智能体基准测试，旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发，包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示，当前最先进的模型在测试中得分较低，表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。

论文智能体基准测试评估 Agent's Last Exam 推理模型

推荐理由：做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板，值得所有关注智能体能力的开发者点开看看。

原文

14:43

Philipp Schmid@_philschmid

Agents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试，包含来自 55 个行业的 1000 多个真实专业任务，所有任务都源自实际专家工作，而非合成数据。测试结果显示，最佳智能体在最简单任务上得分低于 50%，在困难任务上低于 10%，最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链（harness），且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误（47%）、领域知识缺失（31%）和执行错误（22%），且 34% 的任务需要 GUI 软件，但智能体倾向于回避并采用 CLI 变通方案。

AI模型智能体基准测试 ALE 真实任务评估

推荐理由：ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平，做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。

原文

13:31

swyx (AI Engineer)@swyx

73°

METR 发布 FrontierCode 基准测试，发现超过一半的 SWEBench 结果是无法合并的劣质代码。FrontierCode 包含 1000+ 小时维护者验证的软件工程任务，并设有 3000+ 条评分标准，涵盖代码质量和反作弊机制。最难的 FC Diamond 级别中，Opus 4.8 得分仅为 13.8%。该基准将 AI 编程划分为三个时代：2021 年自动补全（HumanEval）、2023 年通过测试（SWEBench）、2026 年可维护代码（FrontierCode）。数据显示，2025 年底模型能力出现跃升，最易任务的通过率在 4 个月内从 41% 提升至 74%，标志着 AI 编程从 2 次重试 95% 成功率到 6 次重试的质变。

AI产品基准测试代码质量 SWEBench FrontierCode AI编程

推荐理由：FrontierCode 戳破了现有基准的泡沫，真正衡量代码可维护性而非通过测试——做 AI 编程工具或智能体开发的团队，建议看看这个新标尺，它可能改变你评估模型的方式。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:49

Artificial Analysis@ArtificialAnlys

88°

Anthropic 今日发布 Claude Fable 5，在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一，领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分，并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制，在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元，是 Opus 4.8 的两倍，但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。

AI模型 Claude Fable 5 Anthropic 推理模型智能体基准测试

推荐理由：Claude Fable 5 在多项智能和代理基准上碾压竞品，做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。

原文

05:36

Gary Marcus@GaryMarcus

Gary Marcus 转发了一项新研究，该研究提出了一个名为 SciConBench 的基准测试，包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现，前沿 AI 智能体无法有效综合科学结论，这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成，结果对 AI 在科学领域的可靠性提出了质疑。

论文 AI 科学家 SciConBench 基准测试科学综合 Gary Marcus

推荐理由：这项研究直接戳破了 AI 作为科学家的泡沫，做科研或依赖 AI 进行文献综述的团队值得一看，避免被过度宣传误导。

原文

04:11

Richard Socher@RichardSocher

Andrej Karpathy 发布了一个新的 AI 基准测试，旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度，对研究者和开发者具有重要参考价值。

论文基准测试 Transformer Karpathy AI 评估模型进化

推荐理由：Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具，做模型训练和评估的团队值得关注这个测试，看看自己的模型需要多久才能达到高级水平。

原文

02:13

OpenRouter@OpenRouterAI

AI产品基准测试模型比较帕累托曲线 OpenRouter 成本优化

推荐理由：做模型选型或成本优化的开发者终于有了可视化工具——帕累托曲线直接帮你找到性价比最优解，建议打开 Benchmark Explorer 试试。

原文

01:11

OpenRouter@OpenRouterAI

OpenRouter 发布了新的基准测试探索器，允许用户绘制 10 个不同基准的帕累托曲线。该工具整合了包括 @ArtificialAnlys 和 @Designarena 在内的多个基准数据，帮助用户直观比较模型性能与成本之间的权衡。这对于评估和选择 AI 模型具有实用价值，尤其适合需要平衡性能与预算的开发者。用户可以通过 openrouter.ai/rankings#bench… 直接访问该工具。

AI产品基准测试帕累托曲线模型评估 OpenRouter 成本优化

推荐理由：OpenRouter 的基准探索器让模型选型从凭感觉变成看数据，做模型评估或成本优化的团队可以直接用帕累托曲线挑出性价比最高的模型。

原文

6月11日

22:28

Qdrant@qdrant_engine

Qdrant 发布了一项基准测试，比较了两种方法：直接将大量上下文发送给 LLM，以及使用 Qdrant 的两步检索管道仅获取最相关信息。结果显示，更大的上下文窗口会增加成本和延迟，而检索有助于减少 LLM 所需的上下文量，同时保持答案质量。随着上下文窗口的增长，检索不会消失，反而对效率、可扩展性和控制变得更加重要。

AI产品向量搜索 Qdrant 检索增强生成上下文窗口基准测试

推荐理由：做 RAG 或向量搜索的团队会关心这个关键权衡——大上下文窗口并非万能，检索仍是降本增效的核心手段，建议点开看具体数据。

原文

17:59

AI Will@FinanceYF5

Claude 在波音 747 基准测试中表现出色，被部分观察者认为已达到 AGI（通用人工智能）水平。该基准测试通常用于评估 AI 在复杂工程任务上的能力，Claude 的表现引发了广泛讨论。这一进展表明 AI 在特定领域的能力可能已接近或超越人类专家。

AI模型 Claude AGI 基准测试波音747 人工智能

推荐理由：关注 AI 能力边界的读者会感兴趣——Claude 在工程基准上的突破可能重新定义 AGI 的标准，值得点开看看具体测试细节。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:34

Browser Use@browser_use

Claude Fable 在 BU Bench 基准测试中取得了最高分，成为目前测试中完成在线任务表现最好的模型。然而，其运行成本也最高，完成整个基准测试需要花费 580.87 美元。这一结果凸显了高性能 AI 模型在实用性与经济性之间的权衡，对于需要高精度自动化任务的团队来说，成本是一个关键考量因素。

AI模型 Claude Fable BU Bench 基准测试在线任务成本

推荐理由：如果你在寻找能高效完成在线任务的 AI 模型，Claude Fable 的表现值得关注，但高昂的成本意味着你需要权衡投入产出比。做自动化测试或任务编排的团队可以点开看看具体数据。

原文

08:53

rohanpaul_ai@rohanpaul_ai

精选72°

一篇新论文提出“Agents' Last Exam”基准测试，要求AI智能体完成来自55个数字工作领域的真实专家任务，包括工程、金融、医学、法律、媒体和科学。测试发现，当前最强的智能体系统在最难任务上的平均完全通过率仅为2.6%，远低于其基准分数所暗示的水平。该基准强调从“能否回答难题”转向“能否完成人们付费做的工作”，使用自动检查或严格评分标准而非主观评判。结果表明，基准测试的成功尚未转化为广泛的工作场所能力，智能体在真实自动化中仍不可靠。

论文智能体基准测试真实工作自动化评估标准

推荐理由：这篇论文戳破了AI基准测试的泡沫——高分不等于能干实事。做AI自动化部署的团队、评估智能体能力的开发者，看完会重新审视自己的测试标准，建议点开看看真实工作场景的差距。

原文

6月10日

16:39

coderabbitai@coderabbitai

精选

CodeRabbit 团队对 Fable 5 进行了 105 次代码审查基准测试，结果显示其在代码覆盖方面接近人类水平，但精度较低，共提交了 253 条评论。这表明 Fable 5 在代码构建方面表现出色，但在代码审查时噪音较多。该测试为开发者提供了关于 AI 代码审查工具实际性能的参考。

AI产品 Fable 5 代码审查基准测试 AI 编程助手 CodeRabbit

推荐理由：做代码审查的团队可以看看 Fable 5 的实际表现——覆盖不错但噪音多，适合快速发现潜在问题，但需要人工过滤。建议点开了解具体数据。

原文

11:44

Cognition@cognition_labs

精选76°

Devin 平台现已集成 Claude Fable 5 模型，该模型在 FrontierCode 基准测试中排名第一。FrontierCode 是评估真实工程任务中代码合并性和质量的基准。这一更新意味着开发者可以在 Devin 中使用当前最强的代码生成模型之一，提升自动化编程效率。

AI产品 Devin Claude Fable 5 代码生成基准测试编程助手

推荐理由：对于使用 Devin 做自动化编程的团队，Fable 5 的集成直接提升了代码质量和合并成功率，值得立即体验。

原文

11:10

Jerry Liu@jerryjliu0

精选

LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务（如 SWE-Bench Pro、FrontierCode）上表现卓越，但在文档理解任务上仅与 Gemini 3 Flash 相当，而 token 成本却高出 10-15 倍。有趣的是，模型自身似乎也意识到这一点，在被问及最不喜欢的任务时，它表示不喜欢“请求完全明确、答案完全已知”的任务，暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度（90.02%）和语义格式化（72.62%）上领先，但整体仍远逊于专业 OCR 提供商。

AI模型 Claude Fable 5 文档理解 ParseBench 基准测试 LlamaIndex

推荐理由：做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强，但文档理解性价比不如 Gemini 3 Flash，甚至不如专业 OCR 服务。如果你在选模型做文档处理，这篇评测能帮你省下 10 倍 token 成本，值得点开对比。

原文

10:03

Scott Wu@ScottWu46

76°

在 FrontierCode 基准发布仅一天后，Cognition 的 Claude Fable 5 模型即成为新的最高分获得者，尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上，Fable 5 得分从 13.4% 跃升至 29.3%，远超 Opus 的 4.8%。该基准专注于真实世界的工程任务，评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用，为开发者提供更强的编程辅助能力。

AI模型 Claude Fable 5 FrontierCode 基准测试编程助手 Devin

推荐理由：Claude Fable 5 在真实工程任务基准上碾压 Opus，做复杂代码合并的开发者可以直接在 Devin 中体验，效率提升立竿见影。

原文