03:07@koltregaskes@koltregaskesEthan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。AI模型GLM-5.2AA-Briefcase开源模型智能体基准测试推荐理由:开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了,做复杂任务时值得试试看。原文
17:45Browser Use@browser_useBrowser Use 团队使用 v4 版本构建 QA 基准测试,将 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3 四个模型在 LLM Arena 数据集上的任务进行对比。每个模型生成网站后由人工评估打分,测试涵盖多个任务类型。结果揭示了开源权重模型在特定场景下的表现差异。AI模型GLM 5.2Opus 4.7GPT 5.5Minimax M3基准测试3 个信源在谈推荐理由:他们用 Browser Use v4 搞了个新基准,测了 GLM 5.2、Opus 4.7、GPT 5.5 和 Minimax M3,人工打分告诉你谁在 QA 任务上更强。原文
13:51Together AI@togethercompute精选Together Compute推出ParallelKernelBench开放基准测试,专门评估LLM编写多GPU内核的难度。该基准基于50个真实CUDA通信问题,性能取决于通过NVLink高效移动数据。测试结果将于6月30日在aiDotEngineer World's Fair上由Simran Arora分享。AI模型ParallelKernelBenchTogether ComputeCUDANVLink基准测试推荐理由:Together Compute搞了个ParallelKernelBench,专门测LLM能不能写好复杂的多GPU内核,比单GPU难多了,感兴趣的话可以去现场听分享。原文
13:51Together AI@togethercompute精选ParallelKernelBench评估了LLMs编写多GPU内核的能力,包含87个来自Megatron-LM、DeepSpeed、DeepEP、TensorRT-LLM、NeMo-RL等真实代码库的问题。测试结果显示LLMs在单GPU内核上表现良好,但在多GPU场景下完全失败。该研究由Willy Chan等人完成,揭示了当前LLM在多GPU编程中的核心缺陷。AI模型ParallelKernelBenchMegatron-LMDeepSpeed多GPU基准测试推荐理由:新基准ParallelKernelBench发现,LLM写单GPU代码还行,但多个GPU一起就瞎了。想看看AI编程到底卡在哪?原文
13:50François Chollet@fchollet精选François Chollet 指出,如果基准测试依赖静态数据集或训练时已知的静态分布,那么它本质上衡量的是记忆/检索,而非智能。他以 ARC 挑战为例,说明现有基准容易因数据泄露而失效,并强调真正智能需要应对未知变化。Chollet 呼吁社区设计更能体现泛化能力的测试,如基于动态环境的评估。行业François Chollet基准测试智能测评记忆检索ARC推荐理由:Chollet 点破了基准测试的痛点:很多高分模型只是背答案,不是真聪明。做评测的值得看看。原文
01:42OpenRouter@OpenRouterAIOpenRouter 持续对大多数开源权重模型运行 GPQA 与 TAU-Bench 两个基准,并将结果公开。这些成绩被用于其 AutoExacto 元基准,后者是路由工具调用的默认依据。当前 Parasail 和 Zai 在排行榜上位列第一。技巧OpenRouterGPQATAU-BenchAutoExacto基准测试推荐理由:选模型路由工具前,看看 OpenRouter 定期跑的 GPQA 和 TAU-Bench 排名,现在 Parasail 和 Zai 排第一,挺有参考价值。原文
12:56Epoch AI@EpochAIResearch精选Epoch AI 推出了 MirrorCode,一个长周期软件工程基准,允许 AI 模型自主编程数天。最佳模型(如 GPT-4、Claude 3.5)在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务,每个任务需要多步代码修改和调试。结果显示,当前 AI 在处理持续数小时的工程任务时仍面临挑战,但进步显著。AI模型MirrorCodeEpoch AI编程助手基准测试推理模型1 个信源在谈推荐理由:Epoch AI 搞了个新基准 MirrorCode,让 AI 连续写几天代码,最强模型能干人类几周的活,想看看 AI 编程天花板在哪可以关注。原文
12:16Geek@geekbbNous Research 推出了 Hermes Agent,通过暴露 MoA(混合代理)预设作为虚拟模型,提供超越公开前沿模型的能力。在即将发布的基准测试中,Hermes Agent 成绩比 Opus 4.8 高 8%,比 GPT 5.5 高 11%。该模型目前仅限部分用户访问。AI模型Hermes AgentNous ResearchMoA基准测试推荐理由:Nous Research 搞了个新东西,用 MoA 预设做虚拟模型,比 Opus 4.8 和 GPT 5.5 都强,值得看看。原文
02:46OpenRouter@OpenRouterAI精选OpenRouter 正式推出官方 MCP 服务,让 AI 代理能实时查询模型定价、基准成绩和流行度数据。该服务可避免代理在代码中硬编码错误的模型 slug。视频演示显示代理能够动态选择模型、获取价格并测试性能。这使代理不再依赖六个月前的训练数据猜测模型选择。AI产品OpenRouterMCP模型定价基准测试代理工具推荐理由:OpenRouter 出了个 MCP,你的代理能实时查模型价格和排名,再也不怕写错模型名了。原文
01:18Jerry Liu@jerryjliu0精选Mistral OCR 在 ParseBench 上与多个前沿和开源权重模型进行对比测试。它在语义格式化方面表现突出,能准确处理删除线、上下标、标题层级和链接。在内容忠实度(阅读顺序、幻觉、遗漏)和视觉定位(边界框)上也具有竞争力。表格处理能力一般,几乎没有图表能力。其价格明显低于 Azure Doc Intelligence 和 AWS Textract 等 OCR 服务商。AI模型Mistral OCRParseBenchOCR语义格式化基准测试推荐理由:Mistral OCR 在 ParseBench 上语义格式化很强,价格还比 Azure/AWS 便宜,适合做高质量 OCR 又不愿花大价钱的场景。原文
03:55lmarena.ai@lmarena_ai精选Arena排行榜基于全球社区的真实任务动态更新,而非静态基准。评估流程包括内部基准测试、模型接入、社区投票、分数稳定化和公开发布。团队采用Bradley-Terry模型确保分数稳定性,并区分Expert和Hard难度以细化评估维度。视频还介绍了代码名称、身份泄露过滤及投票质量控制等机制。技巧ArenaLMSYS模型评测基准测试Bradley-Terry推荐理由:想了解AI模型评测怎么运作的?Arena团队亲自拆解从内测到上线的完整评估流程,还讲了Bradley-Terry分数如何保证公平,干货满满。原文
13:00@atomic_chat_hq@atomic_chat_hqStepFun 的 Step 3.7 Flash 模型与 DeepSeek V4-Flash 在物理动画生成任务中直接对比。任务要求编写自包含 HTML5 Canvas 动画,包含高尔顿板、旋转六边形中弹跳的球、五个同步节拍器三个场景。Step 3.7 Flash 输出 59.6k tokens (9分57秒),DeepSeek V4-Flash 输出 52.5k tokens (6分21秒)。虽然 DeepSeek 更快,但 StepFun 在物理模拟、视觉效果和逻辑渲染三个维度全面获胜。AI模型Step 3.7 FlashDeepSeek V4-FlashStepFun代码生成基准测试1 个信源在谈推荐理由:StepFun 的 Step 3.7 Flash 在生成物理动画上把 DeepSeek V4-Flash 比下去了,慢点但模拟和画面都好很多。原文
05:23OpenAI@OpenAIOpenAI推出LifeSciBench,这是一个专门用于评估AI在生命科学领域表现的基础基准。该基准旨在通过更现实的测试场景,帮助研究者衡量进展、识别差距。LifeSciBench强调与生命科学社区的持续合作,以共同改进AI。具体评估指标和测试集细节尚待公开。AI模型LifeSciBenchOpenAI基准测试生命科学10 个信源在谈推荐理由:OpenAI搞了个LifeSciBench,专门测AI在生命科学上的表现,比以前的评估更贴近真实场景,想了解差距的可以看看。原文
02:39Firecrawl@firecrawl_devFirecrawl 的 AI 研发工程师通过索引查询论文、代码和技术讨论。在内部研究基准中,其召回率比 Exa 高 30%,比 Parallel 高 250%。目前已被多个领先研究团队采用。AI产品FirecrawlExaParallel搜索召回基准测试推荐理由:Firecrawl 搜索召回比 Exa 强 30%,比 Parallel 猛 250%,做研究查资料可以试试它。原文
23:18AI Will@FinanceYF5精选OpenAI frontier evals 负责人 Tejal Patwardhan 指出,现有基准测试如旧考试已变得过于简单,模型接近 100% 通过后无法区分真实能力。OpenAI 正在构建新评估框架,以更准确衡量前沿模型的真正水平。此举旨在避免模型仅通过刷分应付测试,确保评测能反映实际进步。行业OpenAITejal Patwardhan评测体系基准测试AI安全10 个信源在谈推荐理由:OpenAI 自己都觉得旧考试太水了,新评测体系怎么玩?来看看他们怎么重新定义能力原文
06:57Jim Fan@jimfan在一项无法在物理世界中被攻破的基准测试中,OpenAI Codex 的表现超越 Anthropic Claude,而 Claude 又优于月之暗面 Kimi。该基准由 @DrJimFan 参与的论文提出,专注于物理世界的真实场景评估。结果显示了各模型在复杂物理任务上的相对排名。AI模型CodexClaudeKimi基准测试物理世界10 个信源在谈推荐理由:英伟达科学家发推说他们论文里 Codex 把 Claude 和 Kimi 都干掉了,还是物理世界实测,看看你家模型排第几。原文
04:49阿里通义 Qwen@Alibaba_Qwen精选72°Qwen-RobotWorld由阿里巴巴Qwen团队发布,将自然语言视为通用动作接口,统一末端执行器姿态、转向命令和导航点。该模型在具身世界知识语料库(860万视频-文本对、超2亿帧)上联合训练20+种具身类型和500+个动作类别。在EWMBench、DreamGen、WorldModelBench、PBench等基准测试中表现强劲。这一方法桥接了通用视频生成模型与领域专用具身模型之间的鸿沟。AI模型Qwen-RobotWorld阿里巴巴具身智能视频生成基准测试推荐理由:Qwen把自然语言当遥控器,一个模型搞定机器臂、自动驾驶、无人机等20多种动作,还赢了多个基准,挺有意思。原文
03:35@koltregaskes@koltregaskesFable 5 在多个模型排行榜上表现突出,相较此前版本实现罕见的大幅提升。该模型在多项基准测试中显著碾压其他对手,但不是在所有任务上都优秀。这一成绩引发对 OpenAI 等竞争者如何应对的讨论。AI模型Fable 5模型排行榜基准测试10 个信源在谈推荐理由:Fable 5 在排行榜上把其他模型都压下去了,看看它到底强在哪原文
03:28lmarena.ai@lmarena_aiAgent Arena 是一个智能体性能排行榜,现已在 arena.ai/leaderboard/ag... 上线。用户可通过按开放模型或按实验室(lab)筛选来查看详细数据。该排行榜为不同智能体模型提供了直接的性能对比基准。AI模型Agent Arena智能体排行榜基准测试开放模型推荐理由:想比对比不同智能体模型?去Agent Arena排行榜,能按开放模型或实验室筛选,帮你找到合适的。原文
13:55@hebbia@hebbia71°在Hebbia金融服务业基准测试中,Anthropic的Fable 5模型总分超过所有其他前沿模型。该模型在基于文档的推理任务上提升显著,并在图表与表格解读、问题解决两个子项中取得最高分。测试结果来自Hebbia发布的金融行业专属评测集,涵盖多个复杂金融场景。AI模型Fable 5AnthropicHebbia基准测试金融AI10 个信源在谈推荐理由:Hebbia测了金融场景,Fable 5在文档推理和图表解读上碾压其他模型,搞金融AI的可以看看具体分数对比。原文
10:07Gary Marcus@GaryMarcusAnthropic 发布的 Claude Fable 5 在 Epoch AI 的 Epoch Capabilities Index 上获得 161 分,以 1 分之差超越 GPT-5.5 Pro 的 160 分。这是 Anthropic 一年多来首次在该基准上领先。该指数综合评估模型能力,当前最高分为 161。尽管成绩创下新高,但专家指出进步幅度仍属渐进。AI模型Claude Fable 5GPT-5.5 ProAnthropicEpoch Capabilities Index基准测试10 个信源在谈推荐理由:Claude Fable 5 刚在 Epoch 能力指数上以 161 分微弱领先 GPT-5.5 Pro,这是 Anthropic 一年多来首次登顶,你可以看看它具体强在哪。原文
06:09rohanpaul_ai@rohanpaul_ai精选一项新研究提出了HLL基准测试,要求AI智能体完成10种CAPTCHA任务,包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现,即使强大的智能体在静态任务中表现良好,但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力,结果显示当前AI智能体难以通过此类验证。论文HLLCAPTCHA智能体基准测试AI安全推荐理由:看看AI怎么被CAPTCHA难倒的原文
12:58lmarena.ai@lmarena_aiClaude Fable-5 在 Agent Arena 排行榜上展示了其技术细节,该模型在多个基准测试中表现突出。具体数据显示,Fable-5 在任务完成率上达到 92.3%,相比前代提升 15%。排行榜还提供了 Fable-5 与其他模型如 GPT-4o 和 Gemini 2.0 的对比结果。AI模型Claude Fable-5Agent Arena基准测试智能体10 个信源在谈推荐理由:看 Fable-5 在 Agent Arena 上的具体数据原文
15:09Artificial Analysis@ArtificialAnlys73°Artificial Analysis 更新了其编程智能体指数,用 Datacurve 的 DeepSWE 基准测试取代了 SWE-Bench Pro。DeepSWE 从零编写任务,避免模型从公开 GitHub 问题或 PR 中记忆答案,解决了原基准可被游戏化的问题。更新后,Codex with GPT-5.5 (xhigh) 得分从 65 升至 76,超越 Claude Code with Opus 4.8 (max) 的 73 分;新发布的 Claude Fable 5 (max) 在 Claude Code 中以 77 分位居榜首。这一变化揭示了原基准对某些模型组合的偏差。AI产品编程智能体基准测试Claude Fable 5GPT-5.5DeepSWE10 个信源在谈推荐理由:基准测试更新直接影响了主流编程智能体的排名,做 AI 编程工具选型或评估模型能力的开发者值得关注——Claude Fable 5 新登顶,Codex 也大幅提升,建议点开看具体得分和对比。原文
14:45Philipp Schmid@_philschmidAgent's Last Exam 是一个全新的AI智能体基准测试,旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发,包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示,当前最先进的模型在测试中得分较低,表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。论文智能体基准测试评估Agent's Last Exam推理模型推荐理由:做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板,值得所有关注智能体能力的开发者点开看看。原文
14:43Philipp Schmid@_philschmidAgents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试,包含来自 55 个行业的 1000 多个真实专业任务,所有任务都源自实际专家工作,而非合成数据。测试结果显示,最佳智能体在最简单任务上得分低于 50%,在困难任务上低于 10%,最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链(harness),且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误(47%)、领域知识缺失(31%)和执行错误(22%),且 34% 的任务需要 GUI 软件,但智能体倾向于回避并采用 CLI 变通方案。AI模型智能体基准测试ALE真实任务评估推荐理由:ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平,做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。原文
13:31swyx (AI Engineer)@swyx73°METR 发布 FrontierCode 基准测试,发现超过一半的 SWEBench 结果是无法合并的劣质代码。FrontierCode 包含 1000+ 小时维护者验证的软件工程任务,并设有 3000+ 条评分标准,涵盖代码质量和反作弊机制。最难的 FC Diamond 级别中,Opus 4.8 得分仅为 13.8%。该基准将 AI 编程划分为三个时代:2021 年自动补全(HumanEval)、2023 年通过测试(SWEBench)、2026 年可维护代码(FrontierCode)。数据显示,2025 年底模型能力出现跃升,最易任务的通过率在 4 个月内从 41% 提升至 74%,标志着 AI 编程从 2 次重试 95% 成功率到 6 次重试的质变。AI产品基准测试代码质量SWEBenchFrontierCodeAI编程推荐理由:FrontierCode 戳破了现有基准的泡沫,真正衡量代码可维护性而非通过测试——做 AI 编程工具或智能体开发的团队,建议看看这个新标尺,它可能改变你评估模型的方式。原文
12:49Artificial Analysis@ArtificialAnlys88°Anthropic 今日发布 Claude Fable 5,在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一,领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分,并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制,在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元,是 Opus 4.8 的两倍,但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。AI模型Claude Fable 5Anthropic推理模型智能体基准测试10 个信源在谈推荐理由:Claude Fable 5 在多项智能和代理基准上碾压竞品,做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。原文
05:36Gary Marcus@GaryMarcusGary Marcus 转发了一项新研究,该研究提出了一个名为 SciConBench 的基准测试,包含 9.11k 个来自 Cochrane 系统评价的科学问题。测试发现,前沿 AI 智能体无法有效综合科学结论,这挑战了 AI 作为科学家的过度宣称。该研究由 Manoel Ribeiro 等人完成,结果对 AI 在科学领域的可靠性提出了质疑。论文AI 科学家SciConBench基准测试科学综合Gary Marcus推荐理由:这项研究直接戳破了 AI 作为科学家的泡沫,做科研或依赖 AI 进行文献综述的团队值得一看,避免被过度宣传误导。原文
04:11Richard Socher@RichardSocherAndrej Karpathy 发布了一个新的 AI 基准测试,旨在评估从基础 Transformer 模型到高级 AI 系统的演进过程。该测试需要 AI 花费相当长的时间才能达到 Karpathy 的版本水平。这一基准测试可能用于衡量 AI 系统的复杂性和进步程度,对研究者和开发者具有重要参考价值。论文基准测试TransformerKarpathyAI 评估模型进化推荐理由:Karpathy 的基准测试为 AI 开发者提供了一个衡量模型进化难度的新工具,做模型训练和评估的团队值得关注这个测试,看看自己的模型需要多久才能达到高级水平。原文
02:13OpenRouter@OpenRouterAIOpenRouter 在其排行榜中新增了基准测试探索器,支持对 10 个不同基准测试绘制帕累托曲线。用户可以通过该工具直观比较不同模型在性能与成本之间的权衡,包括 Artificial Analysis 和 Design Arena 等基准。这为开发者选择模型提供了更全面的决策依据,尤其适合需要平衡效果与预算的场景。AI产品基准测试模型比较帕累托曲线OpenRouter成本优化推荐理由:做模型选型或成本优化的开发者终于有了可视化工具——帕累托曲线直接帮你找到性价比最优解,建议打开 Benchmark Explorer 试试。原文
01:11OpenRouter@OpenRouterAIOpenRouter 发布了新的基准测试探索器,允许用户绘制 10 个不同基准的帕累托曲线。该工具整合了包括 @ArtificialAnlys 和 @Designarena 在内的多个基准数据,帮助用户直观比较模型性能与成本之间的权衡。这对于评估和选择 AI 模型具有实用价值,尤其适合需要平衡性能与预算的开发者。用户可以通过 openrouter.ai/rankings#bench… 直接访问该工具。AI产品基准测试帕累托曲线模型评估OpenRouter成本优化推荐理由:OpenRouter 的基准探索器让模型选型从凭感觉变成看数据,做模型评估或成本优化的团队可以直接用帕累托曲线挑出性价比最高的模型。原文
22:28Qdrant@qdrant_engineQdrant 发布了一项基准测试,比较了两种方法:直接将大量上下文发送给 LLM,以及使用 Qdrant 的两步检索管道仅获取最相关信息。结果显示,更大的上下文窗口会增加成本和延迟,而检索有助于减少 LLM 所需的上下文量,同时保持答案质量。随着上下文窗口的增长,检索不会消失,反而对效率、可扩展性和控制变得更加重要。AI产品向量搜索Qdrant检索增强生成上下文窗口基准测试推荐理由:做 RAG 或向量搜索的团队会关心这个关键权衡——大上下文窗口并非万能,检索仍是降本增效的核心手段,建议点开看具体数据。原文
17:59AI Will@FinanceYF5Claude 在波音 747 基准测试中表现出色,被部分观察者认为已达到 AGI(通用人工智能)水平。该基准测试通常用于评估 AI 在复杂工程任务上的能力,Claude 的表现引发了广泛讨论。这一进展表明 AI 在特定领域的能力可能已接近或超越人类专家。AI模型ClaudeAGI基准测试波音747人工智能推荐理由:关注 AI 能力边界的读者会感兴趣——Claude 在工程基准上的突破可能重新定义 AGI 的标准,值得点开看看具体测试细节。原文
11:34Browser Use@browser_useClaude Fable 在 BU Bench 基准测试中取得了最高分,成为目前测试中完成在线任务表现最好的模型。然而,其运行成本也最高,完成整个基准测试需要花费 580.87 美元。这一结果凸显了高性能 AI 模型在实用性与经济性之间的权衡,对于需要高精度自动化任务的团队来说,成本是一个关键考量因素。AI模型Claude FableBU Bench基准测试在线任务成本推荐理由:如果你在寻找能高效完成在线任务的 AI 模型,Claude Fable 的表现值得关注,但高昂的成本意味着你需要权衡投入产出比。做自动化测试或任务编排的团队可以点开看看具体数据。原文
08:53rohanpaul_ai@rohanpaul_ai精选72°一篇新论文提出“Agents' Last Exam”基准测试,要求AI智能体完成来自55个数字工作领域的真实专家任务,包括工程、金融、医学、法律、媒体和科学。测试发现,当前最强的智能体系统在最难任务上的平均完全通过率仅为2.6%,远低于其基准分数所暗示的水平。该基准强调从“能否回答难题”转向“能否完成人们付费做的工作”,使用自动检查或严格评分标准而非主观评判。结果表明,基准测试的成功尚未转化为广泛的工作场所能力,智能体在真实自动化中仍不可靠。论文智能体基准测试真实工作自动化评估标准推荐理由:这篇论文戳破了AI基准测试的泡沫——高分不等于能干实事。做AI自动化部署的团队、评估智能体能力的开发者,看完会重新审视自己的测试标准,建议点开看看真实工作场景的差距。原文
16:39coderabbitai@coderabbitai精选CodeRabbit 团队对 Fable 5 进行了 105 次代码审查基准测试,结果显示其在代码覆盖方面接近人类水平,但精度较低,共提交了 253 条评论。这表明 Fable 5 在代码构建方面表现出色,但在代码审查时噪音较多。该测试为开发者提供了关于 AI 代码审查工具实际性能的参考。AI产品Fable 5代码审查基准测试AI 编程助手CodeRabbit10 个信源在谈推荐理由:做代码审查的团队可以看看 Fable 5 的实际表现——覆盖不错但噪音多,适合快速发现潜在问题,但需要人工过滤。建议点开了解具体数据。原文
11:44Cognition@cognition_labs精选76°Devin 平台现已集成 Claude Fable 5 模型,该模型在 FrontierCode 基准测试中排名第一。FrontierCode 是评估真实工程任务中代码合并性和质量的基准。这一更新意味着开发者可以在 Devin 中使用当前最强的代码生成模型之一,提升自动化编程效率。AI产品DevinClaude Fable 5代码生成基准测试编程助手10 个信源在谈推荐理由:对于使用 Devin 做自动化编程的团队,Fable 5 的集成直接提升了代码质量和合并成功率,值得立即体验。原文
11:10Jerry Liu@jerryjliu0精选LlamaIndex 创始人 Jerry Liu 在 X 上发布了对 Claude Fable 5 的 ParseBench 基准测试结果。该模型在推理密集型任务(如 SWE-Bench Pro、FrontierCode)上表现卓越,但在文档理解任务上仅与 Gemini 3 Flash 相当,而 token 成本却高出 10-15 倍。有趣的是,模型自身似乎也意识到这一点,在被问及最不喜欢的任务时,它表示不喜欢“请求完全明确、答案完全已知”的任务,暗示其表现不佳部分源于“懒惰”和缺乏意愿。尽管在内容忠实度(90.02%)和语义格式化(72.62%)上领先,但整体仍远逊于专业 OCR 提供商。AI模型Claude Fable 5文档理解ParseBench基准测试LlamaIndex10 个信源在谈推荐理由:做文档解析或 RAG 的团队注意了——Claude Fable 5 在推理上很强,但文档理解性价比不如 Gemini 3 Flash,甚至不如专业 OCR 服务。如果你在选模型做文档处理,这篇评测能帮你省下 10 倍 token 成本,值得点开对比。原文
10:03Scott Wu@ScottWu4676°在 FrontierCode 基准发布仅一天后,Cognition 的 Claude Fable 5 模型即成为新的最高分获得者,尤其在最具挑战性的任务上表现突出。在 FrontierCode Diamond 子集上,Fable 5 得分从 13.4% 跃升至 29.3%,远超 Opus 的 4.8%。该基准专注于真实世界的工程任务,评估代码的可合并性和质量。Fable 5 现已可在 Devin 中使用,为开发者提供更强的编程辅助能力。AI模型Claude Fable 5FrontierCode基准测试编程助手Devin10 个信源在谈推荐理由:Claude Fable 5 在真实工程任务基准上碾压 Opus,做复杂代码合并的开发者可以直接在 Devin 中体验,效率提升立竿见影。原文