全部 AI 动态 · AI 热点

6月16日

19:02

kimmonismus@kimmonismus

VibeThinker-3B是仅3B参数的小模型，在AIME26上取得94.3分，在LiveCodeBench v6上Pass@1达80.2，在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder，结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明，部分可验证推理能力可被高效压缩到小密集模型中。

AI模型 VibeThinker-3B Qwen2.5-Coder 推理模型小模型代码生成

推荐理由：3B的小模型在数学和代码推理上快追上大模型了，适合部署在低算力场景，值得关注。

原文

14:08

AlphaSignal@AlphaSignalAI

研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步，用多个小阻尼步骤替换原始大步骤，使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升，在GPQA上取得+2.01分提升，并在87%的测试组合中保持正向效果。

AI模型 Looped Transformers MMLU-Pro GPQA 推理模型无训练优化

推荐理由：这篇论文教会你一种骚操作：不重新训练，就能让现成模型在推理时多思考几轮，MMLU-Pro和GPQA分数都涨了，值得看看。

原文

6月15日

20:12

小互@imxiaohu

Perceptron AI 发布了 Agentic Detection 模型，用户只需提供一张图片并用自然语言描述目标，模型就能在图中精确框出并标注每个目标。该模型无需预先训练，可直接处理从未见过的检测任务。它还能执行物理推理，例如从森林火灾画面中定位“烟的来源”，识别“需要维修的电线杆”或标记“空着的停车位”。这些能力使其在零样本目标检测领域展现了显著进步。

AI模型 Perceptron AI Agentic Detection 视觉检测多模态推理模型

推荐理由：Perceptron AI 发了新视觉检测模型，不用提前训练，直接说找什么它就圈出来，还能推理物理关系，挺实用。

原文

18:12

AI Will@FinanceYF5

该模型在低effort设置下仍展现极强性能，是新训练轮次的第一个版本。它已被认为是当前最强的模型，但调低effort后不会大材小用。这一结论来自一个推文作者的观察，强调了低档位的强大。

AI模型 effort 推理模型训练轮次最强模型

推荐理由：试试把effort调到最低，这个新版本直接成了最强模型，效果惊人。

原文

17:56

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴旗下开源模型 Qwen 现已登陆欧洲 AI 网关 Eden AI，该平台已服务超过 200,000 名开发者。企业可通过 Eden AI 的统一 API 调用 Qwen 的推理、编程等模型，构建多模型工作流并避免供应商锁定。为庆祝上线，所有 Qwen 模型享 35% 折扣。Eden AI CEO 与 CPTO 将在下周二 VivaTech 会场与开发者见面。

AI产品 Qwen Eden AI Alibaba Cloud API 推理模型

推荐理由：Qwen 现在在 Eden AI 上能用了，20 万开发者都在用的平台，通过统一 API 就能调用推理和编码模型，还打 35 折，挺划算的。

原文

10:22

Gary Marcus@GaryMarcus

精选

一篇arXiv论文（2601.22436）发现，当前LLM智能体系统存储过去任务时包含原始步骤历史或总结规则。研究者通过将正确提示替换为随机垃圾文本来测试记忆使用情况：当步骤历史被破坏时，AI表现显著下降；但当总结规则被破坏时，AI性能无变化。这表明AI并未真正应用抽象规则，而是依赖复制精确历史动作。

论文 LLM智能体推理模型记忆机制抽象推理

推荐理由：论文实锤AI只会照搬历史

原文

6月14日

16:21

宝玉@dotey

Phoenix Yin指出，过去在GPT-3.5提示词中让其冒充GPT-4只能获得性能提升的错觉。Fable 5的真正实力来自Mythos-class底层权重、海量新训练数据和复杂agent架构，而非简单提示词复制。泄露prompt与老模型最多cosplay出味道像的lite版，性能差距巨大。Fable 5在长时程复杂分析、工具链、自验证等硬核任务上直接甩老模型几条街。

AI模型 GPT-3.5 GPT-4 Fable 5 提示词工程推理模型

推荐理由：别信提示词能偷实力，Fable 5靠的是真功夫

原文

02:01

lmarena.ai@lmarena_ai

精选

AI模型 Kimi-K2.7-Code Kimi 开源模型编程助手推理模型

推荐理由：Kimi 开源新编程模型，性能全面超越前代

原文

6月13日

17:47

berryxia@berryxia

GLM-5.2 模型更新已发布，目前仅面向 codingPlan 用户开放。API 调用预计下周才支持。该更新是 GLM 系列模型的新版本，具体改进细节尚未公布。

AI模型 GLM-5.2 codingPlan 智谱AI 推理模型

推荐理由：GLM 新版本来了

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Moonshot 推出 K2.7 Code，这是其 K2 系列的最新编程模型，已在 Fireworks 的 serverless 和 API 上上线。相比 K2.6，K2.7 Code 的推理 token 减少约 30%，同时在 Moonshot 的编程基准测试中得分更高。对于智能体编程任务，这一效率提升显著。

AI模型 K2.7 Code Moonshot Fireworks 编程助手推理模型

推荐理由：编程模型 token 省 30% 还更强

原文

16:53

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 为 Qwen 模型新增长时智能体循环功能，支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时，生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文，支持按请求切换思考/非思考模式，以及原生图像和文本输入。默认启用 262k 上下文和提示缓存，缓存输入价格为每百万 token 0.10 美元。

AI产品 Fireworks Qwen 智能体 MCP/工具推理模型

推荐理由：Fireworks 让 Qwen 跑 11 小时智能体循环

原文

16:53

Fireworks AI@FireworksAI_HQ

Fireworks 宣布作为真正的推理提供商部署 Qwen 3.7 Plus，请求在其硬件上端到端执行，使用授权权重，无转发。Qwen 3.7 Plus（思考模式）在 AIME 2025 上匹配 Max 性能，端到端吞吐量比 Qwen 3.6 Plus 高 3.55 倍。

AI模型 Qwen 3.7 Plus Fireworks AIME 2025 推理模型

推荐理由：Fireworks 直营 Qwen 3.7 Plus，吞吐量翻倍

原文

16:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 指出，在长代理循环中，推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度，在不牺牲质量的前提下减少下游上下文大小，从而提升生成速度并降低重试次数，最终降低每个完成任务的真实成本。

AI模型 K2.7 Code Fireworks AI 推理模型智能体

推荐理由：K2.7 Code 省 token 省成本

原文

13:17

Epoch AI@EpochAIResearch

精选73°

Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分，Tier 1-3 达到 87%，Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。

AI模型 Claude Fable 5 Anthropic FrontierMath 推理模型

推荐理由：Anthropic 新模型数学超强

原文

13:11

LMSYS Org (SGLang)@lmsysorg

精选73°

SGLang在NVIDIA GB300 NVL72平台上，针对DeepSeek V4 Pro 1.6T模型（FP4精度，8K/1K上下文）实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo（SGLang）和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试，该性能在整个交互性曲线上保持稳定。

AI模型 SGLang GB300 NVL72 DeepSeek V4 Pro NVIDIA Dynamo 推理模型

推荐理由：SGLang在GB300上跑DeepSeek V4 Pro，每GPU超1.2万token

原文

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

13:00

lmarena.ai@lmarena_ai

Peter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现，包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩，超越了前代模型。

AI模型 Claude Fable 5 Anthropic Agent Arena 智能体推理模型

推荐理由：看看Claude Fable 5在Agent Arena的表现

原文

12:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks 宣布 Kimi K2 模型现已在 serverless 平台上可用。标准层按 token 计费，输入 $0.95/1M token，输出 $4/1M token，缓存命中 $0.19/1M token。上下文窗口达 256K。优先层面向关键工作负载，快速路径即将推出。

AI产品 Fireworks Kimi K2 serverless 推理模型定价

推荐理由：Fireworks上线Kimi K2，价格超低

原文

10:41

AI Will@FinanceYF5

精选

《Memory》方法让模型在多个 session 间积累知识，路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步（记录失败但不查询）；Opus 4.7 可到第3步，但校验覆盖率仅7–33%；Fable 5 能走完全程，验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。

论文 Sonnet 4.6 Opus 4.7 Fable 5 记忆机制推理模型

推荐理由：Fable 5 跨 session 记忆覆盖率73%

原文

10:38

AI Will@FinanceYF5

Anthropic工程师通过两个实验验证，设计让模型自我纠错的环境比直接提示更有效。实验一显示，在特定架构下，Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明，通过环境反馈机制，模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型，而是优化了Agent的交互流程。

AI模型 Claude 3.5 Sonnet Anthropic 智能体推理模型架构设计

推荐理由：Anthropic教你用环境设计提升Agent

原文

10:34

AI Will@FinanceYF5

精选

Claude Fable 5 基于物理第一性原理构建了太阳系模拟，而非仅制作轨道动画。它推导出行星运动规律，并成功预测了一次日食。该模型还展示了黑洞模拟，体现了其科学推理能力。

AI模型 Claude Fable 5 物理模拟推理模型日食预测

推荐理由：Claude Fable 5 用物理原理预测日食

原文

10:29

OpenRouter@OpenRouterAI

OpenRouter 推出 Subagent 服务器工具，允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型（如 Claude 3 Haiku）。主模型负责编排，子代理执行具体任务，且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度，目前已有 634 次查看。

AI产品 OpenRouter Subagent 智能体推理模型 MCP/工具

推荐理由：大模型自动调用便宜模型干活

原文

10:18

berryxia@berryxia

精选73°

Kimi 发布 K2.7-Code 模型，开源权重和代码至 Hugging Face。相比上一代，token 消耗减少 30%，agent 长任务成功率提升。在 Kimi Code Bench v2 上提升 21.8%，Program Bench 提升 11%，MLS Bench Lite 提升 31.5%。模型通过高效推理解决 coding model 过度思考问题，并预告 6x High-Speed Mode。

AI模型 Kimi K2.7-Code 开源模型编程助手推理模型

推荐理由：Kimi 开源新模型，少烧 token 还能干更多活

原文

04:21

elvis@omarsar0

精选

Google Research 推出 Gemini-SQL2，基于 Gemini 3.1 Pro 模型。该模型在 BIRD 基准上实现了最新最佳结果，能够将自然语言转换为可直接执行的 SQL 查询。BIRD 是一个高难度的文本转SQL基准，Gemini-SQL2 在此验证了定制模型在处理复杂真实数据时的优势。

AI模型 Gemini-SQL2 Google BIRD 文本转SQL 推理模型

推荐理由：Google 用 Gemini 3.1 Pro 刷新了 SQL 生成最强成绩

原文

6月12日

22:18

LMSYS Org (SGLang)@lmsysorg

73°

SGLang 宣布 Day-0 支持 MiniMax-M3，这是 MiniMax 推出的原生多模态 MoE 推理模型，总参数量约 428B（活跃参数约 23B），支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制，在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速，每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能，并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。

AI模型 SGLang MiniMax-M3 多模态 MoE 推理模型

推荐理由：SGLang 第一时间支持 MiniMax-M3，做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速，编码和智能体任务表现值得一试。

原文

21:56

vLLM@vllm_project

Kimi 发布 K2.7-Code，一个专注于编程的智能体模型，基于 K2.6 构建。该模型采用 1T 参数的混合专家架构，每次推理仅激活 32B 参数，配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6，K2.7-Code 的思考 token 减少了约 30%，推理更高效。该模型已获 vLLM 支持，可直接复用 K2.6 的部署配置，降低了迁移成本。

AI模型编程智能体 MoE/混合专家 Kimi 推理模型 vLLM

推荐理由：编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时，将激活参数压缩到 32B，做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署，值得一试。

原文

14:45

Philipp Schmid@_philschmid

Agent's Last Exam 是一个全新的AI智能体基准测试，旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发，包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示，当前最先进的模型在测试中得分较低，表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。

论文智能体基准测试评估 Agent's Last Exam 推理模型

推荐理由：做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板，值得所有关注智能体能力的开发者点开看看。

原文

14:19

AI Will@FinanceYF5

Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴，具备判断力、品味和维度感。在调试任务中，Fable 5 展现出前所未有的系统性和精确性，会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程，而是模型本身的“人格”特质，带来了从未体验过的“大模型气息”。

AI模型 Fable 5 编程助手推理模型智能体模型升级

推荐理由：Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题，做复杂产品开发的团队值得一试——它不再只是帮你写代码，而是能和你一起设计。

原文

12:49

Artificial Analysis@ArtificialAnlys

88°

Anthropic 今日发布 Claude Fable 5，在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一，领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分，并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制，在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元，是 Opus 4.8 的两倍，但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。

AI模型 Claude Fable 5 Anthropic 推理模型智能体基准测试

推荐理由：Claude Fable 5 在多项智能和代理基准上碾压竞品，做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。

原文

12:35

Mark Chen (OpenAI 研究)@markchen90

83°

OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想，给出了一个优雅而复杂的证明，融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域，专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类，而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作，并将经验推广到编程和通用协作领域。

AI模型 OpenAI 推理模型数学证明代数数论 Erdős猜想

推荐理由：数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题，证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想，这对理解 AI 在严谨科学中的潜力很有启发。

原文

11:46

Noam Brown (OpenAI 推理)@polynoamial

83°

OpenAI 的一个通用内部模型在著名的组合几何问题上取得了突破性进展。不到一年前，前沿 AI 模型在 IMO（国际数学奥林匹克）中已达到金牌水平。这表明 AI 在数学推理能力上的进步速度惊人，且预计这一趋势将持续。该突破展示了通用模型在解决复杂数学问题上的潜力，而非依赖专门训练的模型。

AI模型 OpenAI 推理模型数学突破组合几何 IMO

推荐理由：数学和 AI 研究者值得关注——OpenAI 的通用模型在组合几何难题上取得突破，展示了 AI 推理能力的快速提升，建议点开了解具体进展。

原文

11:45

Microsoft AI@MicrosoftAI

精选

微软AI实验室在MSBuild 2026上发布了7个新模型，涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建，设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展，标志着微软在AI领域的快速扩张。

AI产品微软多模态模型推理模型代码模型 MSBuild

推荐理由：微软一口气推出7个覆盖多模态的模型，做AI应用开发的团队可以直接集成这些能力，减少自研成本，值得关注。

原文

02:46

宝玉@dotey

用户分享使用 Fable 5 模型的新体验：以前推理强度无脑选 Max，现在因模型足够聪明且 token 消耗大，需谨慎选择。Fable 5 的优点是喜欢验证，结果可靠，但缺点是验证过程耗时较长，可能不划算。有用户发现其强项在于思考推理时间足够长，甚至能思考 15 分钟才开始行动。这反映了模型在智能与效率之间的权衡。

AI产品 Fable 5 推理模型 token消耗验证机制用户体验

推荐理由：Fable 5 的推理强度选择问题直击大模型用户痛点——智能与成本的平衡，做 prompt 调优或 token 预算管理的开发者值得看看这个真实体验。

原文

02:39

向阳乔木@vista8

有用户发现 Claude Fable 5 的一个突出特点是模型在行动前会进行长时间思考推理，最长可达15分钟。这种深度思考模式让模型能更全面地分析问题、规划方案，而不是急于给出即时回应。该特性可能显著提升复杂任务的完成质量，尤其适合需要多步推理或策略规划的用例。这一发现引发了社区对模型推理机制和实用价值的讨论。

AI模型 Claude Fable 5 推理模型深度思考模型特性 AI 规划

推荐理由：如果你经常用 AI 处理复杂任务，Claude Fable 5 的长时间推理模式可能带来质的飞跃——建议试试让它处理需要深度规划的问题，看看效果差异。

原文

6月11日

02:00

rohanpaul_ai@rohanpaul_ai

83°

Google 发布了 DiffusionGemma，一个基于扩散模型的 26B 参数 MoE 开源语言模型，激活参数仅 3.8B。该模型采用 Apache 2.0 许可证，量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token，推理速度比传统自回归模型快 4 倍，在 H100 上可达 1000+ tokens/s，在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点，尤其适合单用户场景。

AI模型开源/仓库推理模型 MoE 扩散模型本地部署

推荐理由：本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍，做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验，值得一试。

原文

6月10日

17:27

Together AI@togethercompute

精选

DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间，并支持每分钟1000+请求。Together AI提供了解决方案，满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。

AI产品推理模型 Together AI DeepCogito 低延迟 AI基础设施

推荐理由：做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟，值得点开看看他们怎么做到的。

原文

15:11

@koltregaskes@koltregaskes

72°

Claude Fable 5（Mythos 通用变体）已发布，其算力消耗是 Opus 的两倍。该模型提供低、中、高、极高和最大五个计算级别，用户可根据需求选择。目前 Fable 仅限订阅用户使用至 6 月 22 日，团队计划在算力充足后重新上线。由于消耗巨大，有用户担心在 $20 订阅计划下，一次提示可能耗尽 5 小时会话额度。

AI模型 Claude Fable 5 Mythos 推理模型算力消耗

推荐理由：Claude Fable 5 的算力消耗翻倍意味着更强的推理能力，但也会快速消耗订阅额度。重度 Claude 用户需要权衡性能与成本，建议在 6 月 22 日前体验并评估是否值得长期使用。

原文

12:35

AI Will@FinanceYF5

91°

Andrej Karpathy 对 Claude Fable 5 给出高度评价，称其不仅在跑分上全面 SOTA，更在质感上实现了重大版本升级。他指出，模型能直接理解并执行更野心的任务，无需反复引导，任务越长越难，优势越明显。Karpathy 甚至表示“从没这么想过直接不看代码”，但提醒生产环境仍需谨慎。他认为这标志着软件需求将大幅增长，用户可以自由构建解释器、可视化工具、仪表盘等定制应用。

AI模型 Claude Fable 5 推理模型编程助手 Karpathy 长任务

推荐理由：Karpathy 的实战评价比跑分更有说服力——做复杂编程或长任务自动化的开发者，看完会重新评估自己的 AI 助手上限。

原文

11:56

Genspark@genspark_ai

Anthropic 的 Claude Fable 5 模型已在 Genspark Code Agent 和 Genspark Claw 中上线，这是 Anthropic 最强大的 Mythos 级模型，已通过安全评估可日常使用。该模型在编程、研究、知识工作和视觉任务上达到业界领先水平，任务越长越复杂，优势越明显。用户可直接在 Genspark 平台体验这一最新模型。

AI产品 Claude Fable 5 Anthropic Genspark 编程助手推理模型

推荐理由：Claude Fable 5 是 Anthropic 目前最强的可公开使用模型，在长复杂任务上表现突出，做编程、研究或知识工作的团队值得立即试用，体验其领先能力。

原文

09:27

Simon Willison@simonw

83°

Simon Willison 分享了对 Claude Fable 5 的初步印象，称其具有“大模型气味”：运行缓慢、价格昂贵，但几乎能处理他抛出的所有任务。该模型在复杂推理和多步骤任务上表现出色，但高昂的成本和延迟可能限制其普及。Willison 认为，对于需要极致能力的专业用户来说，Fable 5 是值得的，但对普通开发者而言，性价比仍是问题。

AI模型 Claude Fable 5 大模型推理模型性能评测 Simon Willison

推荐理由：Claude Fable 5 的“大模型气味”揭示了当前顶尖模型的取舍——慢、贵但能力惊人。做复杂推理或高难度任务的开发者，值得看看 Willison 的实测感受，判断它是否值得你的预算。

原文