全部 AI 动态 · AI 热点

6月13日

13:08

Epoch AI@EpochAIResearch

精选72°

Epoch AI 发布 FrontierMath 基准测试 v2 版本，修复了 42% 的问题错误。新版本中，GPT-5.5 (xhigh) 在 Tier 1-3 上取得 85% 的准确率，Google 的 AI co-mathematician 在 Tier 4 上达到 76%。所有模型得分普遍提高，排名基本不变。

AI模型 FrontierMath GPT-5.5 Google Epoch AI 推理模型

推荐理由：数学基准更新，GPT-5.5和Google AI成绩亮眼

原文

13:00

lmarena.ai@lmarena_ai

Peter Gostev在YouTube上分享了Anthropic的Claude Fable 5在Agent Arena中的初步体验。视频展示了该模型在复杂任务中的表现，包括多步骤推理和工具调用。Claude Fable 5在Agent Arena的基准测试中取得了显著成绩，超越了前代模型。

AI模型 Claude Fable 5 Anthropic Agent Arena 智能体推理模型

推荐理由：看看Claude Fable 5在Agent Arena的表现

原文

12:38

Fireworks AI@FireworksAI_HQ

精选

Fireworks 宣布 Kimi K2 模型现已在 serverless 平台上可用。标准层按 token 计费，输入 $0.95/1M token，输出 $4/1M token，缓存命中 $0.19/1M token。上下文窗口达 256K。优先层面向关键工作负载，快速路径即将推出。

AI产品 Fireworks Kimi K2 serverless 推理模型定价

推荐理由：Fireworks上线Kimi K2，价格超低

原文

11:00

Decoder@Matthias Bastian

Anthropic发布的Claude Fable 5在Artificial Analysis Intelligence Index上获得64.9分，创下十项基准测试中的五项纪录。相比Opus 4.8，性能仅提升5.7%，但token价格翻倍。安全过滤器和回退路由进一步推高使用成本。

AI模型 Claude Fable 5 Anthropic Opus 4.8 推理模型基准测试

推荐理由：性能微涨价格翻倍，谨慎升级

原文

10:41

AI Will@FinanceYF5

精选

《Memory》方法让模型在多个 session 间积累知识，路径分为失败、调查、验证、提炼规则、查用规则五步。Sonnet 4.6 仅完成第1步（记录失败但不查询）；Opus 4.7 可到第3步，但校验覆盖率仅7–33%；Fable 5 能走完全程，验证覆盖率最高达73%。该方法旨在提升模型跨会话知识复用能力。

论文 Sonnet 4.6 Opus 4.7 Fable 5 记忆机制推理模型

推荐理由：Fable 5 跨 session 记忆覆盖率73%

原文

10:38

AI Will@FinanceYF5

Anthropic工程师通过两个实验验证，设计让模型自我纠错的环境比直接提示更有效。实验一显示，在特定架构下，Claude 3.5 Sonnet的任务成功率从52%提升至78%。实验二表明，通过环境反馈机制，模型在复杂推理任务中的错误率降低了34%。这种架构方法不依赖更强大的模型，而是优化了Agent的交互流程。

AI模型 Claude 3.5 Sonnet Anthropic 智能体推理模型架构设计

推荐理由：Anthropic教你用环境设计提升Agent

原文

10:34

AI Will@FinanceYF5

精选

Claude Fable 5 基于物理第一性原理构建了太阳系模拟，而非仅制作轨道动画。它推导出行星运动规律，并成功预测了一次日食。该模型还展示了黑洞模拟，体现了其科学推理能力。

AI模型 Claude Fable 5 物理模拟推理模型日食预测

推荐理由：Claude Fable 5 用物理原理预测日食

原文

10:29

OpenRouter@OpenRouterAI

OpenRouter 推出 Subagent 服务器工具，允许 GPT-4 等强大模型在生成过程中将子任务委托给更小、更便宜的模型（如 Claude 3 Haiku）。主模型负责编排，子代理执行具体任务，且子代理可使用 OpenRouter 上任意模型。该工具旨在降低推理成本并提升速度，目前已有 634 次查看。

AI产品 OpenRouter Subagent 智能体推理模型 MCP/工具

推荐理由：大模型自动调用便宜模型干活

原文

10:18

berryxia@berryxia

精选73°

Kimi 发布 K2.7-Code 模型，开源权重和代码至 Hugging Face。相比上一代，token 消耗减少 30%，agent 长任务成功率提升。在 Kimi Code Bench v2 上提升 21.8%，Program Bench 提升 11%，MLS Bench Lite 提升 31.5%。模型通过高效推理解决 coding model 过度思考问题，并预告 6x High-Speed Mode。

AI模型 Kimi K2.7-Code 开源模型编程助手推理模型

推荐理由：Kimi 开源新模型，少烧 token 还能干更多活

原文

09:43

marktechpost@Asif Razzaq

精选

Google Research 于 2026 年 6 月 12 日发布 Gemini-SQL2，基于 Gemini 3.1 Pro 模型。该模型在 BIRD 单模型排行榜上取得 80.04% 的执行准确率。文章解释了该分数含义、排行榜对比情况，以及 Google 未披露的细节。同时介绍了使用场景和基于 schema 的实现模式。

AI模型 Gemini-SQL2 Gemini 3.1 Pro BIRD Text-to-SQL 推理模型

推荐理由：Google 新模型 SQL 准确率破 80%

原文

04:21

elvis@omarsar0

精选

Google Research 推出 Gemini-SQL2，基于 Gemini 3.1 Pro 模型。该模型在 BIRD 基准上实现了最新最佳结果，能够将自然语言转换为可直接执行的 SQL 查询。BIRD 是一个高难度的文本转SQL基准，Gemini-SQL2 在此验证了定制模型在处理复杂真实数据时的优势。

AI模型 Gemini-SQL2 Google BIRD 文本转SQL 推理模型

推荐理由：Google 用 Gemini 3.1 Pro 刷新了 SQL 生成最强成绩

原文

6月12日

22:18

LMSYS Org (SGLang)@lmsysorg

73°

SGLang 宣布 Day-0 支持 MiniMax-M3，这是 MiniMax 推出的原生多模态 MoE 推理模型，总参数量约 428B（活跃参数约 23B），支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制，在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速，每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能，并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。

AI模型 SGLang MiniMax-M3 多模态 MoE 推理模型

推荐理由：SGLang 第一时间支持 MiniMax-M3，做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速，编码和智能体任务表现值得一试。

原文

21:56

vLLM@vllm_project

Kimi 发布 K2.7-Code，一个专注于编程的智能体模型，基于 K2.6 构建。该模型采用 1T 参数的混合专家架构，每次推理仅激活 32B 参数，配备 MLA 注意力机制和 256K 上下文窗口。相比 K2.6，K2.7-Code 的思考 token 减少了约 30%，推理更高效。该模型已获 vLLM 支持，可直接复用 K2.6 的部署配置，降低了迁移成本。

AI模型编程智能体 MoE/混合专家 Kimi 推理模型 vLLM

推荐理由：编程智能体模型终于有了更高效的选择——K2.7-Code 在保持 1T 参数规模的同时，将激活参数压缩到 32B，做代码生成和推理的开发者可以直接在 vLLM 上复用现有部署，值得一试。

原文

14:45

Philipp Schmid@_philschmid

Agent's Last Exam 是一个全新的AI智能体基准测试，旨在评估智能体在复杂、多步骤任务中的表现。该测试由多个研究机构联合开发，包含一系列需要规划、工具使用和推理的挑战性任务。初步结果显示，当前最先进的模型在测试中得分较低，表明智能体能力仍有巨大提升空间。该基准的发布为AI智能体研究提供了更严格的评估标准。

论文智能体基准测试评估 Agent's Last Exam 推理模型

推荐理由：做AI智能体研究的团队终于有了更严格的测试标准——Agent's Last Exam 揭示了当前模型的真实短板，值得所有关注智能体能力的开发者点开看看。

原文

14:19

AI Will@FinanceYF5

Boris Cherny 评价 Fable 5 是自 Opus 4.5 以来最显著的模型升级。该模型从单纯的编码助手进化为产品构建中的思考和设计伙伴，具备判断力、品味和维度感。在调试任务中，Fable 5 展现出前所未有的系统性和精确性，会自动测量、添加日志并验证修复效果。Cherny 认为这种能力并非来自提示工程，而是模型本身的“人格”特质，带来了从未体验过的“大模型气息”。

AI模型 Fable 5 编程助手推理模型智能体模型升级

推荐理由：Fable 5 解决了 AI 编程从工具到伙伴的跃迁问题，做复杂产品开发的团队值得一试——它不再只是帮你写代码，而是能和你一起设计。

原文

12:49

Artificial Analysis@ArtificialAnlys

88°

Anthropic 今日发布 Claude Fable 5，在 Artificial Analysis Intelligence Index 上以 64.9 分排名第一，领先第二名 GPT-5.5 约 5 分。该模型在 10 项基准测试中的 5 项取得最高分，并在代理能力评估中大幅领先。Fable 5 采用自适应推理和 Opus 4.8 回退机制，在安全护栏下约 8% 的任务会触发回退。定价为每百万输入/输出 token 10/50 美元，是 Opus 4.8 的两倍，但 Pro/Max/Team 用户可在 6 月 22 日前免费使用。

AI模型 Claude Fable 5 Anthropic 推理模型智能体基准测试

推荐理由：Claude Fable 5 在多项智能和代理基准上碾压竞品，做 AI 应用开发或模型选型的团队值得关注——它可能是目前最强的通用推理和工具调用模型。

原文

12:35

Mark Chen (OpenAI 研究)@markchen90

83°

OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想，给出了一个优雅而复杂的证明，融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域，专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类，而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作，并将经验推广到编程和通用协作领域。

AI模型 OpenAI 推理模型数学证明代数数论 Erdős猜想

推荐理由：数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题，证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想，这对理解 AI 在严谨科学中的潜力很有启发。

原文

11:46

Noam Brown (OpenAI 推理)@polynoamial

83°

OpenAI 的一个通用内部模型在著名的组合几何问题上取得了突破性进展。不到一年前，前沿 AI 模型在 IMO（国际数学奥林匹克）中已达到金牌水平。这表明 AI 在数学推理能力上的进步速度惊人，且预计这一趋势将持续。该突破展示了通用模型在解决复杂数学问题上的潜力，而非依赖专门训练的模型。

AI模型 OpenAI 推理模型数学突破组合几何 IMO

推荐理由：数学和 AI 研究者值得关注——OpenAI 的通用模型在组合几何难题上取得突破，展示了 AI 推理能力的快速提升，建议点开了解具体进展。

原文

11:45

Microsoft AI@MicrosoftAI

精选

微软AI实验室在MSBuild 2026上发布了7个新模型，涵盖推理、代码、图像、语音和转录能力。这些模型基于科学和清洁的商业安全数据构建，设计为无缝协作。微软AI负责人Mustafa Suleyman在主题演讲中展示了这些进展，标志着微软在AI领域的快速扩张。

AI产品微软多模态模型推理模型代码模型 MSBuild

推荐理由：微软一口气推出7个覆盖多模态的模型，做AI应用开发的团队可以直接集成这些能力，减少自研成本，值得关注。

原文

11:25

arXiv cs.LG@Nathaniel Bottman, Yinhong Liu, Kyle Richardson

精选

论文提出一种名为Operadic Consistency（OC）的新方法，用于在无真实标签的情况下检测大语言模型的推理失败。OC基于操作理论，通过比较模型对组合问题的直接回答与分解后组合回答的一致性，生成每个问题的置信度信号。在12个指令微调模型（4B到671B参数）和4个多跳QA数据集上，OC与准确率的皮尔逊相关系数达0.86-0.94，且在所有数据集上均优于链式思维自一致性（CoT-SC）和语义熵等基线。在选择性预测任务中，OC在固定覆盖率下显著提升准确率，AUARC提升0.086-0.096，AUROC提升0.092-0.164。该方法无需标注数据，为LLM推理可靠性提供了一种高效、通用的诊断工具。

论文推理模型组合推理置信度评估无标签检测操作理论

推荐理由：做LLM推理评估的团队终于有了一个无需标签就能检测组合推理失败的新工具——Operadic Consistency在多个数据集上表现稳定，比CoT-SC更可靠，建议关注这个方向。

原文

10:19

arXiv cs.AI@Zach Studdiford, Gary Lupyan

该研究通过对比人类与25个大型语言模型在常识推理任务中的表现，发现两者在推理错误上存在相似模式。研究进一步识别出驱动LLM响应的注意力头，这些注意力头实现了模式匹配机制，并能预测人类因无关提示细节而产生的看似不合理的推理错误。结果表明，人类和LLM的日常因果推理更符合模式匹配而非抽象世界模型。

论文推理模型模式匹配 LLM 认知科学常识推理

推荐理由：这项研究挑战了“人类推理基于抽象模型”的传统观点，对AI开发者和认知科学家都有启发——如果你关心LLM为何会犯“愚蠢”错误，或者想理解人类推理的底层机制，这篇论文值得一读。

原文

10:16

arXiv cs.AI@Daniel Scalena, Sara Candussio, Luca Bortolussi, Elisabetta Fersini, Malvina Nissim, Gabriele Sarti

该研究通过早期退出方法估计链式推理中每一步的因果重要性，发现推理过程存在一个“承诺边界”——模型在单个步骤中从临时猜测突然转向稳定、高置信度的最终答案。此边界之后的所有推理步骤（称为“表观CoT”）对最终答案概率无影响。利用注意力探针，研究人员能从中间步骤高精度线性解码答案形成阶段，并泛化到未见任务。基于此信号，模型可在承诺边界提前退出推理块，平均缩短55%的推理链长度，且性能几乎不受影响。

论文推理模型链式推理早退策略因果重要性注意力探针

推荐理由：这项研究揭示了CoT推理中大量步骤是“无用功”，做推理模型优化或长链推理应用的开发者可以直接用早退策略节省计算成本，值得关注。

原文

02:46

宝玉@dotey

用户分享使用 Fable 5 模型的新体验：以前推理强度无脑选 Max，现在因模型足够聪明且 token 消耗大，需谨慎选择。Fable 5 的优点是喜欢验证，结果可靠，但缺点是验证过程耗时较长，可能不划算。有用户发现其强项在于思考推理时间足够长，甚至能思考 15 分钟才开始行动。这反映了模型在智能与效率之间的权衡。

AI产品 Fable 5 推理模型 token消耗验证机制用户体验

推荐理由：Fable 5 的推理强度选择问题直击大模型用户痛点——智能与成本的平衡，做 prompt 调优或 token 预算管理的开发者值得看看这个真实体验。

原文

02:39

向阳乔木@vista8

有用户发现 Claude Fable 5 的一个突出特点是模型在行动前会进行长时间思考推理，最长可达15分钟。这种深度思考模式让模型能更全面地分析问题、规划方案，而不是急于给出即时回应。该特性可能显著提升复杂任务的完成质量，尤其适合需要多步推理或策略规划的用例。这一发现引发了社区对模型推理机制和实用价值的讨论。

AI模型 Claude Fable 5 推理模型深度思考模型特性 AI 规划

推荐理由：如果你经常用 AI 处理复杂任务，Claude Fable 5 的长时间推理模式可能带来质的飞跃——建议试试让它处理需要深度规划的问题，看看效果差异。

原文

6月11日

11:01

arXiv: DeepSeek@Hao Xiang, Qiaoyu Tang, Le Yu, Yaojie Lu, Xianpei Han, Ben He, Le Sun, Bowen Yu, Peng Wang, Hongyu Lin, Dayiheng Liu

精选

RACES 提出一种递归自动组合框架，将可验证环境视为可组合的积木块，通过定义 SEQUENTIAL、PARALLEL、SORT、SELECT 等组合算子，自动融合环境以生成多样化的推理模式。实验表明，基于组合环境的强化学习训练能持续提升推理泛化能力：在 6 个未见基准上，DeepSeek-R1-Distill-Qwen-14B 平均提升 3.1 分，Qwen3-14B 从 58.8 提升至 61.1。仅用 50 个基础环境即可达到 300 个独立环境的训练效果，显著提高环境利用效率。该方法解决了手动构建环境线性扩展的瓶颈，为 LLM 推理能力扩展提供了可扩展的新路径。

论文推理模型强化学习环境组合泛化能力 RACES

推荐理由：做 LLM 推理强化学习的团队终于有了可扩展的环境构建方案——RACES 用递归组合替代手动堆叠，效率提升 6 倍，值得关注其开源实现。

原文

02:00

rohanpaul_ai@rohanpaul_ai

83°

Google 发布了 DiffusionGemma，一个基于扩散模型的 26B 参数 MoE 开源语言模型，激活参数仅 3.8B。该模型采用 Apache 2.0 许可证，量化后可在 18GB VRAM 内运行。其核心优势在于并行生成 256 个 token，推理速度比传统自回归模型快 4 倍，在 H100 上可达 1000+ tokens/s，在 RTX 5090 上可达 700+ tokens/s。这解决了本地大模型推理慢的痛点，尤其适合单用户场景。

AI模型开源/仓库推理模型 MoE 扩散模型本地部署

推荐理由：本地 LLM 用户终于等来速度突破——DiffusionGemma 的并行生成机制让推理快 4 倍，做本地部署或边缘计算的开发者可以直接在 18GB 显存下体验，值得一试。

原文

6月10日

21:51

Decoder@Maximilian Schreiner

88°

Anthropic推出了Claude Fable 5，这是其新Mythos模型系列的首款产品。该模型在几乎所有基准测试中领先，包括SWE-bench Verified达到95%，但价格是Opus 4.8的两倍，每百万token收费10或50美元。严格的安全过滤器会阻止约9%的请求，并且新的30天数据保留政策甚至适用于零数据保留合同。这标志着Anthropic在追求极致性能的同时，也加强了安全控制和商业化策略。

AI模型 Claude Fable 5 Mythos系列推理模型安全过滤定价策略

推荐理由：Claude Fable 5在编程和推理任务上创下新高，但高昂成本和严格过滤让开发者需要权衡。做AI应用或自动化流程的团队，建议先评估预算和合规需求再决定是否接入。

原文

17:27

Together AI@togethercompute

精选

DeepCogito团队需要为其前沿推理模型实现低于500毫秒的首令牌时间，并支持每分钟1000+请求。Together AI提供了解决方案，满足了这一严苛的性能要求。DeepCogito团队分享了在创业公司时间线上构建前沿模型的经验。这展示了AI基础设施提供商如何帮助初创企业实现高性能推理。

AI产品推理模型 Together AI DeepCogito 低延迟 AI基础设施

推荐理由：做推理模型部署的团队会关心这个案例——Together AI帮DeepCogito在创业节奏下实现了500ms首令牌延迟，值得点开看看他们怎么做到的。

原文

15:11

@koltregaskes@koltregaskes

72°

Claude Fable 5（Mythos 通用变体）已发布，其算力消耗是 Opus 的两倍。该模型提供低、中、高、极高和最大五个计算级别，用户可根据需求选择。目前 Fable 仅限订阅用户使用至 6 月 22 日，团队计划在算力充足后重新上线。由于消耗巨大，有用户担心在 $20 订阅计划下，一次提示可能耗尽 5 小时会话额度。

AI模型 Claude Fable 5 Mythos 推理模型算力消耗

推荐理由：Claude Fable 5 的算力消耗翻倍意味着更强的推理能力，但也会快速消耗订阅额度。重度 Claude 用户需要权衡性能与成本，建议在 6 月 22 日前体验并评估是否值得长期使用。

原文

12:35

AI Will@FinanceYF5

91°

Andrej Karpathy 对 Claude Fable 5 给出高度评价，称其不仅在跑分上全面 SOTA，更在质感上实现了重大版本升级。他指出，模型能直接理解并执行更野心的任务，无需反复引导，任务越长越难，优势越明显。Karpathy 甚至表示“从没这么想过直接不看代码”，但提醒生产环境仍需谨慎。他认为这标志着软件需求将大幅增长，用户可以自由构建解释器、可视化工具、仪表盘等定制应用。

AI模型 Claude Fable 5 推理模型编程助手 Karpathy 长任务

推荐理由：Karpathy 的实战评价比跑分更有说服力——做复杂编程或长任务自动化的开发者，看完会重新评估自己的 AI 助手上限。

原文

11:56

Genspark@genspark_ai

Anthropic 的 Claude Fable 5 模型已在 Genspark Code Agent 和 Genspark Claw 中上线，这是 Anthropic 最强大的 Mythos 级模型，已通过安全评估可日常使用。该模型在编程、研究、知识工作和视觉任务上达到业界领先水平，任务越长越复杂，优势越明显。用户可直接在 Genspark 平台体验这一最新模型。

AI产品 Claude Fable 5 Anthropic Genspark 编程助手推理模型

推荐理由：Claude Fable 5 是 Anthropic 目前最强的可公开使用模型，在长复杂任务上表现突出，做编程、研究或知识工作的团队值得立即试用，体验其领先能力。

原文

11:05

arXiv cs.LG@Tong Xie, Yuanhao Ban, Yunqi Hong, Sohyun An, Yihang Chen, Cho-Jui Hsieh

精选

该论文重新审视了监督微调（SFT）的传统做法，指出最大化每个token的似然可能因噪声或与模型先验不一致而效果不佳。作者提出将SFT视为目标分布设计问题，并引入Q-target框架，将监督分解为对观测token的依赖程度和剩余概率的分配方式。基于此，他们提出了Target-SFT方法，直接根据期望的目标分布构建训练目标。在十个推理数据集-模型组合的实验中，Target-SFT一致优于现有方法，展示了基于目标的设计原则的有效性。这项工作为SFT提供了更统一的视角，并开辟了更广阔的搜索空间。

论文监督微调目标分布设计 Q-target框架推理模型 LLM训练

推荐理由：做LLM微调的团队终于有了一个更系统的设计框架——Target-SFT直接告诉你如何选择目标分布，而不是盲目拟合每个token。做推理模型优化的开发者建议试试，效果在多个数据集上都有提升。

原文

11:03

arXiv cs.LG@Semih Kara, Oğuzhan Ersoy

精选

该研究探讨了自蒸馏中上下文设计的关键作用，通过训练求解器接收冻结批评者的反馈，比较了三种条件：二元奖励、参考解决方案和步骤对齐批评。步骤对齐批评在Avg@12指标上比GRPO高出16.11分，比参考解决方案条件高出5.27分。分析表明，步骤对齐反馈仅针对推理失败的token，保留正确行为，而参考解决方案迫使模型在每个token上改变行为，导致效率降低。研究揭示了反馈与求解器推理的结构对齐是自蒸馏有效性的关键驱动因素。

论文自蒸馏反馈对齐推理模型 GRPO 批评者

推荐理由：做自蒸馏或强化学习的研究者会发现，步骤对齐反馈比传统奖励信号更高效，直接提升模型推理质量，值得在实验中尝试这种上下文设计。

原文

11:02

arXiv cs.LG@Evgenii Kortukov, Piotr Komorowski, Florian Klein, Paula Engl, Gabriele Sarti, Seong Joon Oh, Sebastian Lapuschkin, Wojciech Samek

精选

大型推理模型（LRM）在部署时常出现意外行为，现有测试时干预方法（如激活引导）虽能控制输出，但会降低输出质量。研究发现，传统方法依赖的“检测特征”只能识别已生成文本中的行为，对未来行为预测能力差。研究者训练了激活探针，能从中间推理步骤预测未来行为概率，准确率达64%-91%。基于此，他们提出文本级引导方法FPCG（未来探针控制生成），通过采样多个候选句子并选择未来行为概率最高的一个，实现几乎无质量损失的引导。实验表明，FPCG在多个激活引导失效的场景中仍有效，为控制LRM行为提供了更精细的途径。

论文推理模型模型控制激活探针行为预测 FPCG

推荐理由：这项研究解决了推理模型行为控制中输出质量下降的痛点，做模型对齐或安全控制的开发者可以直接用FPCG方法，在保持生成质量的同时精准引导模型行为。

原文

10:10

arXiv: DeepSeek@Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei, Xiangyuan Wang, Mengzhe Ruan, Hanxu Hou, Peisong Wang, Linqi Song, Shuang Qiu

精选

ReasonAlloc 是一种无需训练的框架，针对大语言模型推理中长思维链（CoT）导致的KV缓存快速增长问题，提出分层预算分配方案。它通过离线层间预分配捕捉架构驱动的“推理波”模式，并结合在线头间实时重分配，将资源导向信息丰富的注意力头。在数学推理基准（MATH-500、AIME 2024）上，使用DeepSeek-R1-Distill-Llama-8B等模型测试，ReasonAlloc在低预算（128-512 tokens）下显著优于均匀预算方法（如R-KV、SnapKV）。该框架可即插即用于现有token驱逐策略，且推理开销极小。

论文 KV缓存压缩推理模型预算分配解码优化 DeepSeek-R1

推荐理由：推理模型的长CoT导致KV缓存爆炸，做推理优化的开发者可以直接用ReasonAlloc替代均匀预算方案，在低预算下获得显著性能提升。

原文

09:40

09:40SuperTechFans（博客/媒体）

88°

Anthropic推出两款新模型：Fable 5（安全版）和Mythos 5（无安全限制版）。Fable 5在软件工程、知识工作、视觉识别等领域达到最先进水平，可自主完成复杂任务，如一天内完成Stripe代码库迁移（原需团队两个月）。Mythos 5面向网络安全，在药物设计、分子生物学等领域表现超越人类专家。两款模型定价均为每百万输入令牌10美元、输出令牌50美元，比预览版低一半以上。但Fable 5的安全措施过于激进，误判大量正常内容，引发用户不满。

AI模型 Anthropic Fable 5 Mythos 5 推理模型安全对齐

推荐理由：Anthropic新模型价格腰斩且能力大幅提升，做复杂自动化或安全研究的团队值得关注；但安全版误判问题严重，实际使用前建议先测试边界。

原文

09:27

Simon Willison@simonw

83°

Simon Willison 分享了对 Claude Fable 5 的初步印象，称其具有“大模型气味”：运行缓慢、价格昂贵，但几乎能处理他抛出的所有任务。该模型在复杂推理和多步骤任务上表现出色，但高昂的成本和延迟可能限制其普及。Willison 认为，对于需要极致能力的专业用户来说，Fable 5 是值得的，但对普通开发者而言，性价比仍是问题。

AI模型 Claude Fable 5 大模型推理模型性能评测 Simon Willison

推荐理由：Claude Fable 5 的“大模型气味”揭示了当前顶尖模型的取舍——慢、贵但能力惊人。做复杂推理或高难度任务的开发者，值得看看 Willison 的实测感受，判断它是否值得你的预算。

原文

08:14

小互@imxiaohu

72°

Anthropic 计划于今晚发布其最强 AI 模型 Mythos，这将是该公司在 AI 领域的重要进展。Mythos 预计在推理、代码生成等任务上超越前代，可能对标 OpenAI 的 GPT-4 系列。消息来自知名爆料者小互，可信度较高。该发布可能引发新一轮 AI 模型竞争，值得关注。

AI模型 Anthropic Mythos 推理模型 AI 模型发布 GPT-4 对标

推荐理由：Anthropic 新旗舰模型 Mythos 今晚发布，做 AI 应用开发或模型对比的团队可以第一时间关注，看看它能否在推理和代码任务上超越 GPT-4。

原文

08:12

08:12Simon Willison’s Weblog（博客/媒体）

88°

Simon Willison 在 Claude Fable 5 发布后第一时间进行了约 5.5 小时的测试。该模型与 Claude Mythos 5 性能相同，但增加了严格的安全护栏，触发时 API 会通知用户并可自动回退到其他模型。Fable 5 拥有 100 万 token 上下文窗口、12.8 万最大输出 token，知识截止于 2026 年 1 月，价格是 Opus 4.8 的两倍。Willison 认为它“感觉很大”，不仅体现在速度和成本上，更在于其知识深度，例如能准确列出他的开源项目。当前挑战已从“模型能做什么”转向“找到它做不了的事”。

AI模型 Claude Fable 5 Claude Mythos 5 安全护栏长上下文推理模型

推荐理由：Claude Fable 5 的“大模型感”让开发者重新思考任务边界——如果你经常用 Claude 处理复杂推理或长上下文任务，这个模型值得一试，但要做好预算准备。

原文

07:14

orange.ai@oran_ge

88°

Claude Fable 5 今日正式发布，基于 Mythos 底座并新增安全护栏，是自 Claude 4.5 以来最重大的模型升级。该模型在软件工程、知识工作、视觉识别和科学研究等几乎所有基准测试中均处于顶尖水平，任务越复杂优势越明显。Andrej Kapathy 评价其能“解放思想”，用户可交付更大任务而无需检查代码。价格方面，输入 10 美元、输出 50 美元、缓存输入 1 美元，长文本场景下单句可能花费 10 美元，需注意配额。Claude Fable 5 将以原价在 Cola 平台上线供体验。

AI模型 Claude Fable 5 Mythos 安全护栏推理模型编程助手

推荐理由：Fable 5 解决了复杂长任务执行中的模型能力瓶颈，做 AI 开发或重度使用的团队可以直接体验，感受“解放思想”的编程体验——但记得先设好预算配额。

原文