19:02kimmonismus@kimmonismusVibeThinker-3B是仅3B参数的小模型,在AIME26上取得94.3分,在LiveCodeBench v6上Pass@1达80.2,在未见过的LeetCode比赛中正确率96.1%。其训练基于Qwen2.5-Coder,结合课程SFT、多领域RL、离线自蒸馏和最终RL指导阶段。结果表明,部分可验证推理能力可被高效压缩到小密集模型中。AI模型VibeThinker-3BQwen2.5-Coder推理模型小模型代码生成推荐理由:3B的小模型在数学和代码推理上快追上大模型了,适合部署在低算力场景,值得关注。原文
14:08AlphaSignal@AlphaSignalAI研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步,用多个小阻尼步骤替换原始大步骤,使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升,在GPQA上取得+2.01分提升,并在87%的测试组合中保持正向效果。AI模型Looped TransformersMMLU-ProGPQA推理模型无训练优化1 个信源在谈推荐理由:这篇论文教会你一种骚操作:不重新训练,就能让现成模型在推理时多思考几轮,MMLU-Pro和GPQA分数都涨了,值得看看。原文
20:12小互@imxiaohuPerceptron AI 发布了 Agentic Detection 模型,用户只需提供一张图片并用自然语言描述目标,模型就能在图中精确框出并标注每个目标。该模型无需预先训练,可直接处理从未见过的检测任务。它还能执行物理推理,例如从森林火灾画面中定位“烟的来源”,识别“需要维修的电线杆”或标记“空着的停车位”。这些能力使其在零样本目标检测领域展现了显著进步。AI模型Perceptron AIAgentic Detection视觉检测多模态推理模型推荐理由:Perceptron AI 发了新视觉检测模型,不用提前训练,直接说找什么它就圈出来,还能推理物理关系,挺实用。原文
18:12AI Will@FinanceYF5该模型在低effort设置下仍展现极强性能,是新训练轮次的第一个版本。它已被认为是当前最强的模型,但调低effort后不会大材小用。这一结论来自一个推文作者的观察,强调了低档位的强大。AI模型effort推理模型训练轮次最强模型推荐理由:试试把effort调到最低,这个新版本直接成了最强模型,效果惊人。原文
17:56阿里云 Alibaba Cloud@alibaba_cloud阿里巴巴旗下开源模型 Qwen 现已登陆欧洲 AI 网关 Eden AI,该平台已服务超过 200,000 名开发者。企业可通过 Eden AI 的统一 API 调用 Qwen 的推理、编程等模型,构建多模型工作流并避免供应商锁定。为庆祝上线,所有 Qwen 模型享 35% 折扣。Eden AI CEO 与 CPTO 将在下周二 VivaTech 会场与开发者见面。AI产品QwenEden AIAlibaba CloudAPI推理模型推荐理由:Qwen 现在在 Eden AI 上能用了,20 万开发者都在用的平台,通过统一 API 就能调用推理和编码模型,还打 35 折,挺划算的。原文
10:22Gary Marcus@GaryMarcus精选一篇arXiv论文(2601.22436)发现,当前LLM智能体系统存储过去任务时包含原始步骤历史或总结规则。研究者通过将正确提示替换为随机垃圾文本来测试记忆使用情况:当步骤历史被破坏时,AI表现显著下降;但当总结规则被破坏时,AI性能无变化。这表明AI并未真正应用抽象规则,而是依赖复制精确历史动作。论文LLM智能体推理模型记忆机制抽象推理推荐理由:论文实锤AI只会照搬历史原文
16:21宝玉@doteyPhoenix Yin指出,过去在GPT-3.5提示词中让其冒充GPT-4只能获得性能提升的错觉。Fable 5的真正实力来自Mythos-class底层权重、海量新训练数据和复杂agent架构,而非简单提示词复制。泄露prompt与老模型最多cosplay出味道像的lite版,性能差距巨大。Fable 5在长时程复杂分析、工具链、自验证等硬核任务上直接甩老模型几条街。AI模型GPT-3.5GPT-4Fable 5提示词工程推理模型10 个信源在谈推荐理由:别信提示词能偷实力,Fable 5靠的是真功夫原文
02:01lmarena.ai@lmarena_ai精选Kimi 发布并开源了最新编程模型 Kimi-K2.7-Code,相比 K2.6 在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11.0%,在 MLS Bench Lite 上提升 31.5%。推理效率优化,推理 token 使用量降低 30%。支持长程编程任务,指令遵循和端到端成功率更高。模型已通过 Kimi API 和 Kimi Code 提供。AI模型Kimi-K2.7-CodeKimi开源模型编程助手推理模型5 个信源在谈推荐理由:Kimi 开源新编程模型,性能全面超越前代原文
17:47berryxia@berryxiaGLM-5.2 模型更新已发布,目前仅面向 codingPlan 用户开放。API 调用预计下周才支持。该更新是 GLM 系列模型的新版本,具体改进细节尚未公布。AI模型GLM-5.2codingPlan智谱AI推理模型2 个信源在谈推荐理由:GLM 新版本来了原文
16:53Fireworks AI@FireworksAI_HQ精选Moonshot 推出 K2.7 Code,这是其 K2 系列的最新编程模型,已在 Fireworks 的 serverless 和 API 上上线。相比 K2.6,K2.7 Code 的推理 token 减少约 30%,同时在 Moonshot 的编程基准测试中得分更高。对于智能体编程任务,这一效率提升显著。AI模型K2.7 CodeMoonshotFireworks编程助手推理模型推荐理由:编程模型 token 省 30% 还更强原文
16:53Fireworks AI@FireworksAI_HQ精选Fireworks AI 为 Qwen 模型新增长时智能体循环功能,支持观察、推理、编码、执行和验证的重复流程。Qwen 官方演示运行了 11 小时,生成了超过 10,000 行代码并执行了 1,000 多次调用。Fireworks 提供 reasoning_history 参数以跨轮次保留推理上下文,支持按请求切换思考/非思考模式,以及原生图像和文本输入。默认启用 262k 上下文和提示缓存,缓存输入价格为每百万 token 0.10 美元。AI产品FireworksQwen智能体MCP/工具推理模型推荐理由:Fireworks 让 Qwen 跑 11 小时智能体循环原文
16:53Fireworks AI@FireworksAI_HQFireworks 宣布作为真正的推理提供商部署 Qwen 3.7 Plus,请求在其硬件上端到端执行,使用授权权重,无转发。Qwen 3.7 Plus(思考模式)在 AIME 2025 上匹配 Max 性能,端到端吞吐量比 Qwen 3.6 Plus 高 3.55 倍。AI模型Qwen 3.7 PlusFireworksAIME 2025推理模型推荐理由:Fireworks 直营 Qwen 3.7 Plus,吞吐量翻倍原文
16:38Fireworks AI@FireworksAI_HQ精选Fireworks AI 指出,在长代理循环中,推理 token 会在后续轮次中作为上下文被重复使用。K2.7 Code 通过缩短推理 token 长度,在不牺牲质量的前提下减少下游上下文大小,从而提升生成速度并降低重试次数,最终降低每个完成任务的真实成本。AI模型K2.7 CodeFireworks AI推理模型智能体推荐理由:K2.7 Code 省 token 省成本原文
13:17Epoch AI@EpochAIResearch精选73°Anthropic 的 Claude Fable 5 在 FrontierMath 基准测试 v2 版本中取得高分,Tier 1-3 达到 87%,Tier 4 达到 88%。这延续了 Anthropic 模型在数学能力上快速提升的趋势。AI模型Claude Fable 5AnthropicFrontierMath推理模型10 个信源在谈推荐理由:Anthropic 新模型数学超强原文
13:11LMSYS Org (SGLang)@lmsysorg精选73°SGLang在NVIDIA GB300 NVL72平台上,针对DeepSeek V4 Pro 1.6T模型(FP4精度,8K/1K上下文)实现了每GPU超过12K tok/s的推理速度。该性能由NVIDIA Dynamo(SGLang)和MTP技术协同实现。根据SemiAnalysis InferenceX基准测试,该性能在整个交互性曲线上保持稳定。AI模型SGLangGB300 NVL72DeepSeek V4 ProNVIDIA Dynamo推理模型10 个信源在谈推荐理由:SGLang在GB300上跑DeepSeek V4 Pro,每GPU超1.2万token原文
13:08Epoch AI@EpochAIResearch精选72°Epoch AI 发布 FrontierMath 基准测试 v2 版本,修复了 42% 的问题错误。新版本中,GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率,Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高,排名基本不变。AI模型FrontierMathGPT-5.5GoogleEpoch AI推理模型推荐理由:数学基准更新,GPT-5.5和Google AI成绩亮眼原文
13:00lmarena.ai@lmarena_aiPeter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现,包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩,超越了前代模型。AI模型Claude Fable 5AnthropicAgent Arena智能体推理模型10 个信源在谈推荐理由:看看Claude Fable 5在Agent Arena的表现原文
12:38Fireworks AI@FireworksAI_HQ精选Fireworks 宣布 Kimi K2 模型现已在 serverless 平台上可用。标准层按 token 计费,输入 $0.95/1M token,输出 $4/1M token,缓存命中 $0.19/1M token。上下文窗口达 256K。优先层面向关键工作负载,快速路径即将推出。AI产品FireworksKimi K2serverless推理模型定价推荐理由:Fireworks上线Kimi K2,价格超低原文
10:41AI Will@FinanceYF5精选《Memory》方法让模型在多个 session 间积累知识,路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步(记录失败但不查询);Opus 4.7 可到第3步,但校验覆盖率仅7–33%;Fable 5 能走完全程,验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。论文Sonnet 4.6Opus 4.7Fable 5记忆机制推理模型10 个信源在谈推荐理由:Fable 5 跨 session 记忆覆盖率73%原文
10:38AI Will@FinanceYF5Anthropic工程师通过两个实验验证,设计让模型自我纠错的环境比直接提示更有效。实验一显示,在特定架构下,Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明,通过环境反馈机制,模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型,而是优化了Agent的交互流程。AI模型Claude 3.5 SonnetAnthropic智能体推理模型架构设计10 个信源在谈推荐理由:Anthropic教你用环境设计提升Agent原文
10:34AI Will@FinanceYF5精选Claude Fable 5 基于物理第一性原理构建了太阳系模拟,而非仅制作轨道动画。它推导出行星运动规律,并成功预测了一次日食。该模型还展示了黑洞模拟,体现了其科学推理能力。AI模型Claude Fable 5物理模拟推理模型日食预测10 个信源在谈推荐理由:Claude Fable 5 用物理原理预测日食原文
10:29OpenRouter@OpenRouterAIOpenRouter 推出 Subagent 服务器工具,允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型(如 Claude 3 Haiku)。主模型负责编排,子代理执行具体任务,且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度,目前已有 634 次查看。AI产品OpenRouterSubagent智能体推理模型MCP/工具推荐理由:大模型自动调用便宜模型干活原文
10:18berryxia@berryxia精选73°Kimi 发布 K2.7-Code 模型,开源权重和代码至 Hugging Face。相比上一代,token 消耗减少 30%,agent 长任务成功率提升。在 Kimi Code Bench v2 上提升 21.8%,Program Bench 提升 11%,MLS Bench Lite 提升 31.5%。模型通过高效推理解决 coding model 过度思考问题,并预告 6x High-Speed Mode。AI模型KimiK2.7-Code开源模型编程助手推理模型推荐理由:Kimi 开源新模型,少烧 token 还能干更多活原文
04:21elvis@omarsar0精选Google Research 推出 Gemini-SQL2,基于 Gemini 3.1 Pro 模型。该模型在 BIRD 基准上实现了最新最佳结果,能够将自然语言转换为可直接执行的 SQL 查询。BIRD 是一个高难度的文本转SQL基准,Gemini-SQL2 在此验证了定制模型在处理复杂真实数据时的优势。AI模型Gemini-SQL2GoogleBIRD文本转SQL推理模型3 个信源在谈推荐理由:Google 用 Gemini 3.1 Pro 刷新了 SQL 生成最强成绩原文
22:18LMSYS Org (SGLang)@lmsysorg73°SGLang 宣布 Day-0 支持 MiniMax-M3,这是 MiniMax 推出的原生多模态 MoE 推理模型,总参数量约 428B(活跃参数约 23B),支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制,在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速,每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能,并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。AI模型SGLangMiniMax-M3多模态MoE推理模型10 个信源在谈推荐理由:SGLang 第一时间支持 MiniMax-M3,做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速,编码和智能体任务表现值得一试。原文
21:56vLLM@vllm_projectKimi 发布 K2.7-Code,一个专注于编程的智能体模型,基于 K2.6 构建。该模型采用 1T 参数的混合专家架构,每次推理仅激活 32B 参数,配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6,K2.7-Code 的思考 token 减少了约 30%,推理更高效。该模型已获 vLLM 支持,可直接复用 K2.6 的部署配置,降低了迁移成本。AI模型编程智能体MoE/混合专家Kimi推理模型vLLM推荐理由:编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时,将激活参数压缩到 32B,做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署,值得一试。原文
14:45Philipp Schmid@_philschmidAgent's Last Exam 是一个全新的AI智能体基准测试,旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发,包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示,当前最先进的模型在测试中得分较低,表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。论文智能体基准测试评估Agent's Last Exam推理模型推荐理由:做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板,值得所有关注智能体能力的开发者点开看看。原文
14:19AI Will@FinanceYF5Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴,具备判断力、品味和维度感。在调试任务中,Fable 5 展现出前所未有的系统性和精确性,会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程,而是模型本身的“人格”特质,带来了从未体验过的“大模型气息”。AI模型Fable 5编程助手推理模型智能体模型升级10 个信源在谈推荐理由:Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题,做复杂产品开发的团队值得一试——它不再只是帮你写代码,而是能和你一起设计。原文
12:49Artificial Analysis@ArtificialAnlys88°Anthropic 今日发布 Claude Fable 5,在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一,领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分,并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制,在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元,是 Opus 4.8 的两倍,但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。AI模型Claude Fable 5Anthropic推理模型智能体基准测试10 个信源在谈推荐理由:Claude Fable 5 在多项智能和代理基准上碾压竞品,做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。原文
12:35Mark Chen (OpenAI 研究)@markchen9083°OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想,给出了一个优雅而复杂的证明,融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域,专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类,而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作,并将经验推广到编程和通用协作领域。AI模型OpenAI推理模型数学证明代数数论Erdős猜想8 个信源在谈推荐理由:数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题,证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想,这对理解 AI 在严谨科学中的潜力很有启发。原文
11:46Noam Brown (OpenAI 推理)@polynoamial83°OpenAI 的一个通用内部模型在著名的组合几何问题上取得了突破性进展。不到一年前,前沿 AI 模型在 IMO(国际数学奥林匹克)中已达到金牌水平。这表明 AI 在数学推理能力上的进步速度惊人,且预计这一趋势将持续。该突破展示了通用模型在解决复杂数学问题上的潜力,而非依赖专门训练的模型。AI模型OpenAI推理模型数学突破组合几何IMO8 个信源在谈推荐理由:数学和 AI 研究者值得关注——OpenAI 的通用模型在组合几何难题上取得突破,展示了 AI 推理能力的快速提升,建议点开了解具体进展。原文
11:45Microsoft AI@MicrosoftAI精选微软AI实验室在MSBuild 2026上发布了7个新模型,涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建,设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展,标志着微软在AI领域的快速扩张。AI产品微软多模态模型推理模型代码模型MSBuild推荐理由:微软一口气推出7个覆盖多模态的模型,做AI应用开发的团队可以直接集成这些能力,减少自研成本,值得关注。原文
02:46宝玉@dotey用户分享使用 Fable 5 模型的新体验:以前推理强度无脑选 Max,现在因模型足够聪明且 token 消耗大,需谨慎选择。Fable 5 的优点是喜欢验证,结果可靠,但缺点是验证过程耗时较长,可能不划算。有用户发现其强项在于思考推理时间足够长,甚至能思考 15 分钟才开始行动。这反映了模型在智能与效率之间的权衡。AI产品Fable 5推理模型token消耗验证机制用户体验10 个信源在谈推荐理由:Fable 5 的推理强度选择问题直击大模型用户痛点——智能与成本的平衡,做 prompt 调优或 token 预算管理的开发者值得看看这个真实体验。原文
02:39向阳乔木@vista8有用户发现 Claude Fable 5 的一个突出特点是模型在行动前会进行长时间思考推理,最长可达15分钟。这种深度思考模式让模型能更全面地分析问题、规划方案,而不是急于给出即时回应。该特性可能显著提升复杂任务的完成质量,尤其适合需要多步推理或策略规划的用例。这一发现引发了社区对模型推理机制和实用价值的讨论。AI模型Claude Fable 5推理模型深度思考模型特性AI 规划10 个信源在谈推荐理由:如果你经常用 AI 处理复杂任务,Claude Fable 5 的长时间推理模式可能带来质的飞跃——建议试试让它处理需要深度规划的问题,看看效果差异。原文
02:00rohanpaul_ai@rohanpaul_ai83°Google 发布了 DiffusionGemma,一个基于扩散模型的 26B 参数 MoE 开源语言模型,激活参数仅 3.8B。该模型采用 Apache 2.0 许可证,量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token,推理速度比传统自回归模型快 4 倍,在 H100 上可达 1000+ tokens/s,在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点,尤其适合单用户场景。AI模型开源/仓库推理模型MoE扩散模型本地部署6 个信源在谈推荐理由:本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍,做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验,值得一试。原文
17:27Together AI@togethercompute精选DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间,并支持每分钟1000+请求。Together AI提供了解决方案,满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。AI产品推理模型Together AIDeepCogito低延迟AI基础设施推荐理由:做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟,值得点开看看他们怎么做到的。原文
15:11@koltregaskes@koltregaskes72°Claude Fable 5(Mythos 通用变体)已发布,其算力消耗是 Opus 的两倍。该模型提供低、中、高、极高和最大五个计算级别,用户可根据需求选择。目前 Fable 仅限订阅用户使用至 6 月 22 日,团队计划在算力充足后重新上线。由于消耗巨大,有用户担心在 $20 订阅计划下,一次提示可能耗尽 5 小时会话额度。AI模型ClaudeFable 5Mythos推理模型算力消耗10 个信源在谈推荐理由:Claude Fable 5 的算力消耗翻倍意味着更强的推理能力,但也会快速消耗订阅额度。重度 Claude 用户需要权衡性能与成本,建议在 6 月 22 日前体验并评估是否值得长期使用。原文
12:35AI Will@FinanceYF591°Andrej Karpathy 对 Claude Fable 5 给出高度评价,称其不仅在跑分上全面 SOTA,更在质感上实现了重大版本升级。他指出,模型能直接理解并执行更野心的任务,无需反复引导,任务越长越难,优势越明显。Karpathy 甚至表示“从没这么想过直接不看代码”,但提醒生产环境仍需谨慎。他认为这标志着软件需求将大幅增长,用户可以自由构建解释器、可视化工具、仪表盘等定制应用。AI模型Claude Fable 5推理模型编程助手Karpathy长任务10 个信源在谈推荐理由:Karpathy 的实战评价比跑分更有说服力——做复杂编程或长任务自动化的开发者,看完会重新评估自己的 AI 助手上限。原文
11:56Genspark@genspark_aiAnthropic 的 Claude Fable 5 模型已在 Genspark Code Agent 和 Genspark Claw 中上线,这是 Anthropic 最强大的 Mythos 级模型,已通过安全评估可日常使用。该模型在编程、研究、知识工作和视觉任务上达到业界领先水平,任务越长越复杂,优势越明显。用户可直接在 Genspark 平台体验这一最新模型。AI产品Claude Fable 5AnthropicGenspark编程助手推理模型10 个信源在谈推荐理由:Claude Fable 5 是 Anthropic 目前最强的可公开使用模型,在长复杂任务上表现突出,做编程、研究或知识工作的团队值得立即试用,体验其领先能力。原文
09:27Simon Willison@simonw83°Simon Willison 分享了对 Claude Fable 5 的初步印象,称其具有“大模型气味”:运行缓慢、价格昂贵,但几乎能处理他抛出的所有任务。该模型在复杂推理和多步骤任务上表现出色,但高昂的成本和延迟可能限制其普及。Willison 认为,对于需要极致能力的专业用户来说,Fable 5 是值得的,但对普通开发者而言,性价比仍是问题。AI模型Claude Fable 5大模型推理模型性能评测Simon Willison10 个信源在谈推荐理由:Claude Fable 5 的“大模型气味”揭示了当前顶尖模型的取舍——慢、贵但能力惊人。做复杂推理或高难度任务的开发者,值得看看 Willison 的实测感受,判断它是否值得你的预算。原文