全部 AI 动态 · AI 热点

6月10日

07:14

orange.ai@oran_ge

88°

Claude Fable 5 今日正式发布，基于 Mythos 底座并新增安全护栏，是自 Claude 4.5 以来最重大的模型升级。该模型在软件工程、知识工作、视觉识别和科学研究等几乎所有基准测试中均处于顶尖水平，任务越复杂优势越明显。Andrej Kapathy 评价其能“解放思想”，用户可交付更大任务而无需检查代码。价格方面，输入 10 美元、输出 50 美元、缓存输入 1 美元，长文本场景下单句可能花费 10 美元，需注意配额。Claude Fable 5 将以原价在 Cola 平台上线供体验。

AI模型 Claude Fable 5 Mythos 安全护栏推理模型编程助手

推荐理由：Fable 5 解决了复杂长任务执行中的模型能力瓶颈，做 AI 开发或重度使用的团队可以直接体验，感受“解放思想”的编程体验——但记得先设好预算配额。

原文

06:51

06:51IT之家（博客/媒体）

88°

Anthropic 于 6 月 9 日发布 Claude Fable 5 和 Claude Mythos 5 两款 AI 模型，其中 Fable 5 面向普通用户，是当前公开可用能力最强的 Claude 模型，在软件工程、知识工作、视觉和科学研究领域表现卓越，自主运行时间更长。Mythos 5 则通过 Project Glasswing 项目向网络安全和基础设施提供商开放，具备全球最强的网络安全能力，并在药物设计和分子生物学研究中提速约 10 倍。两款模型定价均为每百万输入 10 美元、输出 50 美元，Fable 5 已全面上线，Mythos 5 暂限特定合作伙伴使用。

AI模型 Claude Fable 5 Claude Mythos 5 Anthropic 推理模型网络安全

推荐理由：Claude 用户终于等来最强公开模型——Fable 5 在长任务和复杂推理上超越 Opus，做软件工程、金融分析或科研的可以直接上手体验。

原文

06:49

berryxia@berryxia

83°

Cohere 将 30B 参数的 MoE 小模型 North Mini Code 以 Apache 2.0 协议开源，仅 3B 活跃参数。该模型在 Artificial Analysis Coding Index 上达到 33.4 分，与同量级模型竞争，但可本地运行、自由修改。其核心优势在于针对 agentic coding 场景优化，让开发者能真正掌控 coding agent，而非依赖云端黑盒。此举打破了开源 coding 模型弱或慢的刻板印象，为社区提供了可自主进化的工具。

AI模型开源/仓库编程助手推理模型 Cohere Agentic Coding

推荐理由：Cohere 把 30B MoE 模型压缩到 3B 活跃参数还开源，做 agentic coding 的开发者终于能本地跑、随便改、不用租云端黑盒了，值得一试。

原文

06:17

Gary Marcus@GaryMarcus

Gary Marcus 在 X 上发文，质疑 Dwarkesh Patel 关于 AI 推理的论述。Marcus 指出，如果承认 LLM 在无法回答问题时可能模仿推理而非真正推理，那么当模型回答正确时，也应考虑同样的可能性，否则就是双重标准。这场辩论触及 AI 推理本质的核心问题，引发学界和业界对如何定义和验证 AI 推理能力的讨论。

行业推理模型 LLM Gary Marcus AI 评估学术辩论

推荐理由：Marcus 的质疑戳中了 AI 推理评估的软肋——做 AI 研究或评测的人，需要思考如何区分真正的推理与模仿，避免被表面正确的结果误导。

原文

06:12

Poe@poe_platform

88°

Anthropic 最强模型 Claude Fable 5 已在 Poe 平台上线。该模型专为长时间运行的复杂工作设计，如大规模代码迁移、深度研究和持续数小时或数天的智能体会话。在几乎所有测试基准上达到最先进水平，在编程、知识工作、科学研究和视觉任务中表现卓越。用户可通过 Poe 直接体验。

AI模型 Claude Fable 5 Anthropic Poe 推理模型编程助手

推荐理由：做大规模代码迁移或深度研究的开发者终于有了能跑几天的模型——Claude Fable 5 在 Poe 上可直接用，建议试试它的长任务能力。

原文

04:52

04:52Anthropic: Newsroom（资讯）

72°

Anthropic 于 2026 年 6 月 9 日宣布推出下一代 AI 模型 Claude Fable 5 和 Claude Mythos 5。这两个模型分别针对高难度知识工作和复杂编程问题进行了优化。Fable 5 在推理、多步分析和创造性问题解决上表现突出，而 Mythos 5 则专注于代码生成、调试和架构设计。此次发布标志着 Anthropic 在专业领域的深度布局，旨在为研究人员、工程师和高级开发者提供更强大的工具。

AI模型 Anthropic Claude Fable 5 Claude Mythos 5 推理模型编程助手

推荐理由：Anthropic 将模型细分为知识工作与编程专用版本，解决了通用模型在专业场景下不够深入的问题。做研究、写复杂代码的团队可以直接升级工作流，值得关注。

原文

03:27

Andrej Karpathy@karpathy

91°

Andrej Karpathy 在 X 上发文称，Claude Fable 5 是与 Mythos 同底层模型但增加了安全护栏的版本。他认为这是自 Claude 4.5 以来又一次重大版本跃升，尤其在长时复杂问题求解上表现惊艳。模型能理解更宏大的任务并自主推进，让人几乎不想再盯着代码。Karpathy 指出模型仍有小毛病，安全护栏在发布初期可能过于敏感，但整体上感觉软件开发正变得像水龙头一样即开即用。他预测杰文斯悖论将生效，自己对软件的需求会大幅增长。

AI模型 Claude Fable 5 推理模型编程助手 Karpathy 安全护栏

推荐理由：Karpathy 的实测感受比任何跑分都有说服力——Claude Fable 5 让复杂编程任务变得像对话一样自然，做 AI 应用或深度编程的开发者值得亲自体验这种“放手让模型干”的新感觉。

原文

03:17

AI SDK@aisdk

72°

AI SDK 宣布支持 Claude Fable 5，这是 Claude 推出的 Mythos 级模型，能力超越此前所有公开发布版本。该模型已通过安全评估，可面向一般用户使用。开发者可通过 AI SDK 直接调用，简化集成流程。此举意味着更强大的推理和生成能力将更快落地到实际应用中。

AI产品 Claude Fable 5 AI SDK 推理模型模型集成

推荐理由：AI SDK 用户可以直接用上 Claude 最强模型，做复杂推理或内容生成的团队值得立即尝试。

原文

03:12

Aadit Sheth@aaditsh

91°

Anthropic 今日推出新模型 Claude Fable 5，属于 Mythos 级别，性能超越此前所有通用模型。Stripe 用它一天内完成了 5000 万行 Ruby 代码的全库迁移，而人工需要两个月。该模型仅凭屏幕截图就通关了《宝可梦火红》，无需地图或导航工具。在药物设计中，它为 14 个蛋白靶点中的 9 个设计了候选分子，其中一项科学假设被独立实验室证实。定价为每百万输入 token 10 美元、每百万输出 token 50 美元，不到前代顶级模型的一半。

AI模型 Claude Fable 5 Anthropic 代码迁移药物设计推理模型

推荐理由：Claude Fable 5 在代码迁移、游戏通关和药物设计上展示了惊人的自主能力，且价格大幅降低，做 AI 应用开发或科研的团队值得立即关注。

原文

03:10

OpenRouter@OpenRouterAI

88°

AI模型 Claude Fable 5 Anthropic 编程助手 OpenRouter 推理模型

推荐理由：做遗留系统迁移或处理复杂生产 bug 的团队，终于有了一个能扛住长时间模糊任务的模型，值得在 OpenRouter 上试一把。

原文

03:00

Replicate@replicate

72°

AI模型 Anthropic Claude Fable 5 推理模型 Replicate 模型发布

推荐理由：Claude Fable 5 是 Anthropic 目前最强的公开模型，性能全面超越前代，做 AI 应用开发或需要高推理能力的团队可以直接通过 Replicate 试用，值得第一时间上手。

原文

02:54

Lenny Rachitsky@lennysan

Claude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平，尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂，Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏，展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。

AI模型 Claude Fable 5 基准测试软件工程推理模型

推荐理由：做复杂软件工程或科学研究的团队，Fable 5 的长任务处理能力值得一试，能显著提升效率。

原文

02:14

Mike Krieger@mikeyk

88°

Anthropic CEO Mikey K. 在X上宣布，Claude新模型在几乎所有测试基准上达到最先进水平，且任务越长领先优势越大。该模型已通过安全审查，针对网络和生物相关请求会透明地回退到Opus 4.8，95%以上的会话不会触发此类回退。API定价为$10/$50，并已包含在付费Claude计划中。

AI模型 Claude 推理模型安全 API 基准测试

推荐理由：Claude新模型在长任务场景下表现突出，做复杂推理或长文档处理的开发者可以直接在API或付费计划中体验，值得关注。

原文

01:52

The Rundown AI@therundownai

Claude Fable 5 已正式发布，这是 Anthropic 推出的新一代 AI 模型。该模型在推理、编程和对话能力上均有显著提升，尤其在复杂任务处理上表现更优。Fable 5 的发布标志着 AI 模型在实用性和性能上的又一次飞跃，为开发者和企业用户提供了更强大的工具。

AI模型 Claude Fable 5 推理模型编程助手 Anthropic

推荐理由：Anthropic 的 Fable 5 在推理和编程能力上大幅提升，做 AI 应用开发或需要高效对话模型的团队值得关注，可以直接体验新能力。

原文

01:48

The Rundown AI@therundownai

88°

Anthropic发布了Claude Fable 5，定位为“面向最困难知识工作和编程问题的下一代智能”。该模型在几乎所有AI能力基准测试中达到最先进水平，尤其在软件工程、知识工作、视觉、科学研究等领域表现卓越。同时，Anthropic还推出了Claude Mythos 5，面向一小群网络防御者和基础设施提供商，其安全限制较少。这一发布标志着AI在专业领域应用的重要进展。

AI模型 Claude Fable 5 Anthropic 推理模型编程助手知识工作

推荐理由：做知识工作和编程的团队终于有了更强大的AI助手——Claude Fable 5在多个基准上领先，值得直接上手试试。

原文

01:21

PolymarketMoney@PolymarketMoney

Anthropic 正式发布了其迄今为止最强大的 AI 模型 Claude Fable，该模型基于 Mythos 架构。Claude Fable 在推理、创造力和多模态能力上均有显著提升，旨在与 OpenAI 的 GPT-5 和 Google 的 Gemini 2.0 竞争。此次发布标志着 AI 领域新一轮性能竞赛的开始，开发者可期待更智能的对话和任务处理体验。

AI模型 Anthropic Claude Fable 推理模型 Mythos AI 竞赛

推荐理由：Claude Fable 是 Anthropic 目前最强的模型，做 AI 应用开发的团队值得第一时间上手测试，看看它在复杂推理和创意任务上的表现是否超越预期。

原文

01:08

Claude@claudeai

精选

Fable 5 在几乎所有测试基准上取得最先进成绩，尤其在软件工程、知识工作、科学研究和视觉领域表现卓越。其性能随着任务长度和复杂性增加而领先其他模型更多。此版本在多项评估中展现了全面优势。

AI模型 Fable 5 推理模型多模态软件工程

推荐理由：Fable 5 全面领先，复杂任务更强

原文

00:50

rohanpaul_ai@rohanpaul_ai

88°

Anthropic 于今日推出 Claude Mythos 的公开版本，代号“Fable”。该模型定价为 Opus 的两倍，但低于此前 Mythos 预览版 5 倍 Opus 的传闻价格。Fable 将附带严格的安全限制，在网络安全使用上不如之前给 Project Glasswing 合作伙伴的受限预览版开放。该模型在长周期、多步骤任务和智能体工作流方面预计表现更强。Mythos 最初于 2026 年 4 月以预览形式推出，在编码、推理和网络安全领域能力突出，但因安全问题未公开发布。

AI模型 Claude Mythos Fable Anthropic 推理模型智能体

推荐理由：Anthropic 终于把最强模型 Mythos 公开了，虽然价格不菲但比预期便宜，做复杂智能体任务和长流程自动化的团队可以直接评估是否值得投入。

原文

6月9日

17:09

歸藏(guizang.ai)@op7418

78°

MiMo 推出 V2.5 Pro UltraSpeed 模型，实现每秒输出超过 1000 Token，成为全球首个达到此速度的万亿参数模型。实测中，复杂 3D 游戏生成峰值达 1426 Token/s，32 秒输出 25624 Token。该模型在保持高推理速度的同时，未出现能力下降，适合 Agent 和并发场景。藏师傅的测试显示，其首次响应时间低至 0.83 秒，代码生成质量高。目前面向 To B 客户，成本有待优化。

AI模型 MiMo 超高速模型万亿参数推理模型 Agent场景

推荐理由：万亿参数模型跑出 1000+ Token/s 的速度，做 Agent 和实时交互的开发者可以直接体验，效率提升肉眼可见。

原文

16:23

PolymarketMoney@PolymarketMoney

72°

据 Polymarket 报道，Anthropic 将于明天发布其新 AI 模型“Mythos”。该消息来自社交媒体平台 X 上的爆料，目前尚未得到 Anthropic 官方确认。Mythos 可能延续 Anthropic 在安全性和推理能力上的优势，或将对标 GPT-5 等前沿模型。若消息属实，这将是 AI 领域近期最受瞩目的发布之一。

AI模型 Anthropic Mythos 模型发布 AI 前沿推理模型

推荐理由：Anthropic 新模型 Mythos 即将发布，关注前沿 AI 动态的开发者可以提前了解，明天值得蹲守。

原文

10:35

arXiv cs.AI@Subramanyam Sahoo

精选

大语言模型常会“不懂装懂”，对超出知识边界的问题给出流畅但错误的回答。研究者提出结构化无知证书（SICs），要求模型明确输出缺失的领域交集、所需概念和检索查询，而非直接生成答案。团队构建了7347条跨领域未知-未知数据集，并用GRPO微调14B模型，使SIC输出JSON有效率达99.46%，概念特异性评分0.967。该方法证明，让模型显式表达认知边界是可学习且可衡量的能力，对提升AI可靠性和安全性有重要意义。

论文推理模型幻觉缓解结构化输出未知-未知 GRPO

推荐理由：这项研究直接戳中了LLM的“幻觉”痛点——用结构化输出让模型承认无知，做AI安全或可靠性研究的团队值得关注，尤其适合需要高可信度输出的应用场景。

原文

10:26

arXiv cs.AI@Shumeng Yang, Yisu Liu, Jiayi Zheng, Zhaohui Yang, Linjing Li

精选

论文提出PAEC（位置感知熵校准）方法，解决强化学习（RLVR）中策略熵过早崩溃的问题。传统全局熵正则化对所有位置均匀增加熵，在长推理轨迹中效率低下。PAEC通过局部top-p熵和top-two候选竞争构建软掩码，对决策敏感位置施加基于锚点的下界惩罚，防止这些位置的熵崩溃。在五个数学推理基准测试中，PAEC相比强RLVR基线提升了多数投票的宏平均性能，尤其在AIME类任务上增益明显。结果表明，推理RL中的熵管理应聚焦于决策敏感位置的选择性探索，而非均匀随机注入。

论文强化学习推理模型熵校准数学推理 RLVR

推荐理由：做LLM推理强化学习的团队终于有了更精细的熵控制方案——PAEC在数学推理任务上直接提升多数投票性能，做RLVR的开发者值得关注这个位置感知的新思路。

原文

09:27

arXiv: DeepSeek@Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo

精选

Bayesian-Agent 是一个跨框架的 LLM Agent 技能优化框架，它将可复用的技能和 SOP 视为关于冻结模型在特定提示、上下文和环境下能否成功的假设。该框架记录验证过的轨迹证据，维护每个技能的特征条件分类后验，并根据后验状态执行修补、拆分、压缩、退役和探索等操作。在 deepseek-v4-flash 上，增量修复将 SOP-Bench 从 80% 提升至 95%，Lifelong AgentBench 从 90% 提升至 100%，RealFin-Bench 从 45% 提升至 65%。该框架还支持 GenericAgent、mini-swe-agent 和 Claude Code 等后端，表明 Agent 技能进化应视为后验引导的优化，而非未校准的提示积累。代码已开源。

论文 LLM Agent 技能进化后验引导开源/仓库推理模型

推荐理由：做 LLM Agent 开发的团队终于有了一个系统化的技能进化方法，不用再靠试错和启发式反思——Bayesian-Agent 用后验概率指导优化，效果显著且可审计，建议直接看论文和代码。

原文

02:53

NotebookLM@NotebookLM

Google 的 NotebookLM 推出重大更新，新增智能体式对话、更高级的推理能力以及多种输出格式。这些功能首先面向 Google AI Ultra 订阅用户和 Workspace 商业客户开放，未来计划扩展到更多用户。升级后的 NotebookLM 能处理复杂、多步骤的研究问题，大幅提升效率。此次更新标志着 NotebookLM 从笔记工具向智能研究助手的转型。

AI产品 NotebookLM 智能体研究助手 Google AI Ultra 推理模型

推荐理由：NotebookLM 这次升级把研究效率拉高了一个台阶，做学术、市场或产品调研的团队可以直接用上智能体对话和多格式输出，省去手动整理资料的麻烦。

原文

02:51

NotebookLM@NotebookLM

78°

Google 的 NotebookLM 迎来重大升级，新增智能体对话能力、更高级的推理功能以及多种新输出格式。用户现在可以更轻松地处理复杂、多步骤的研究问题。该更新已向 Google AI Ultra 订阅用户开放。此次升级使 NotebookLM 从简单的笔记工具转变为更强大的研究助手。

AI产品 NotebookLM 智能体推理模型研究助手 Google AI

推荐理由：做深度研究或复杂信息整理的团队终于有了更智能的工具——NotebookLM 现在能像智能体一样处理多步骤问题，AI Ultra 订阅用户可以直接体验。

原文

01:40

Clement Delangue@ClementDelangue

精选

斯坦福大学研究显示，本地模型在真实世界聊天和推理查询中的准确率从2023年的23.2%提升至71.3%。该研究对比了本地模型与前沿API的成本和能耗，发现本地模型以极低代价实现了大部分任务。研究指出，多数工作负载无需依赖前沿模型，未来将是本地、开源、较小模型的天下。

论文 Stanford 本地模型前沿API 推理模型

推荐理由：本地模型性价比超高

原文

00:44

OpenRouter@OpenRouterAI

精选

OpenRouter 宣布其平台支持智能体仅在需要时调用前沿推理模型，其余操作使用低成本小模型，从而大幅降低运行成本。用户只需在工具列表中添加一个条目，即可开始迁移至更经济的定价曲线。这一功能解决了智能体长期运行中推理成本高昂的问题，尤其适合需要频繁调用 AI 的开发者或团队。目前该功能已上线，用户可通过 OpenRouter 文档中的指南快速上手。

AI产品智能体推理模型成本优化 OpenRouter API/平台

推荐理由：做 AI 智能体开发的团队终于不用为每次推理都付高价了——OpenRouter 让前沿模型只在必要时出场，其余用低成本小模型，建议直接试试这个配置，能省不少钱。

原文

6月8日

11:17

arXiv cs.AI@Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua Shen

MemDreamer 是一种新型框架，通过解耦感知与推理，将长视频理解转化为智能体探索过程。它采用分层图记忆架构，将视频流增量构建为三层语义抽象，并利用智能体工具增强检索机制，在推理时通过观察-推理-行动循环导航节点和逻辑边。实验表明，MemDreamer 在四个主流基准测试中达到最先进水平，与人类专家的差距缩小至仅 3.7 分。它仅使用全上下文 2% 的推理窗口，却带来 12.5 分的绝对准确率提升。此外，统计发现视觉语言模型在逻辑推理与长视频理解性能间存在强正线性相关，表明智能体能力扩展是多模态理解的新范式。

论文长视频理解智能体检索分层图记忆视觉语言模型推理模型

推荐理由：长视频理解一直受限于 token 爆炸和注意力稀释，MemDreamer 用智能体检索和分层记忆解决了这个痛点。做视频分析、多模态研究的团队可以直接参考其框架，在现有模型上即插即用，值得一试。

原文

11:03

arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov

ThinkBooster 是一个统一的测试时计算（TTC）扩展框架，旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试，以及兼容OpenAI的代理服务，支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡，并展示了实际增益。代码以MIT许可证开源。

论文推理模型测试时计算扩展开源/仓库性能评估编程助手

推荐理由：做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益，不用再自己拼凑评估流程，建议直接试。

原文

09:23

arXiv cs.AI@Yuxiang Chen, Jun Wang

精选72°

一项新研究对DeepSeek-R1-0120模型与人类在AIME 2025数学竞赛30道题上的推理过程进行了全面比较，标注了10247个推理步骤。研究发现，DeepSeek-R1的推理存在“拓扑模仿”现象：它频繁进行浅层验证和局部循环，缺乏人类推理中紧凑的分析与演绎交替结构。然而，成功的推理轨迹显示出稳定的分支和回溯使用，而失败的轨迹则过度或不足使用探索性动作。反思只有在演绎推理中才有效，陷入分析循环的反思往往忽略全局逻辑错误。研究建议改进评估和训练，包括测量跨轨迹稳定性、惩罚“空转”轨迹、鼓励深层逻辑修正。

论文推理模型 DeepSeek-R1 数学推理认知科学评估方法

推荐理由：这篇论文戳穿了当前长链推理模型的表面繁荣——做AI推理研究的团队会发现，模型可能只是在模仿推理的“样子”而非真正进步，值得细读其提出的改进方向。

原文

02:53

rohanpaul_ai@rohanpaul_ai

精选

一篇关于推理模型训练后如何改进的入门论文指出，更好的推理模型更依赖于可检查的训练证据，而非原始数据规模。论文强调，推理数据不是简单的问答对，真正有价值的是反馈信号，它解释了答案、步骤、工具调用或完整尝试的好坏。作者将推理数据按检查方式分类，包括基于规则的精确检查（数学、代码）、环境检查（智能体工具使用）以及人工或模型判断。论文还揭示了常见误区：长推理链可能是虚假的，更难的数据对某些模型无用，更大的数据集可能仍缺乏关键覆盖。关键结论是，智能体数据应保留失败、重试、恢复等混乱信息，因为学习信号往往隐藏其中。

论文推理模型训练数据检查信号智能体论文

推荐理由：这篇论文戳破了推理模型训练中“数据越多越好”的迷思，做模型训练或智能体开发的团队值得一读——它告诉你该关注什么数据，而不是盲目堆量。

原文

6月6日

08:18

NVIDIA AI@NVIDIAAI

NVIDIA 正式推出 Nemotron 3 Ultra 模型，并同步发布了详细的设置教程，指导用户如何在智能体框架中集成该模型。官方还展示了多个能力演示视频，涵盖推理、编程等场景。该模型旨在提升 AI 智能体的性能，为开发者提供更强大的基础模型选择。教程和演示资源已公开，方便开发者快速上手。

AI模型 NVIDIA Nemotron 3 Ultra 智能体教程推理模型

推荐理由：NVIDIA 为智能体开发者提供了开箱即用的教程和演示，做 AI 应用集成的团队可以直接参考，省去自己摸索的时间。

原文

6月5日

22:18

Paul Couvert@itsPaulAi

72°

NVIDIA 发布了开源模型 Nemotron 3 Ultra，专为智能体任务和编程设计。该模型在性能上接近闭源模型 GPT 5.5，但推理成本仅为后者的十分之一（$0.051 vs $0.57）。Nemotron 3 Ultra 速度比同类模型快5倍，成本低30%，已在 Hugging Face 上开源。这标志着开源模型与闭源模型之间的质量差距正在迅速缩小，尤其适合处理大型代码库和智能体应用。

AI模型 NVIDIA Nemotron 3 Ultra 开源模型推理模型编程助手

推荐理由：开源模型性能逼近闭源，成本却低一个数量级——做智能体或编程的开发者可以直接在 Hugging Face 上试用，省下不少推理预算。

原文

16:37

AI Will@FinanceYF5

LEAP是一个新型智能体框架，旨在提升大型语言模型在形式数学领域的应用能力。该框架通过多智能体协作和结构化推理，解决了LLM在数学证明和定理推导中的准确性和可解释性问题。实验表明，LEAP在多个形式数学基准上显著优于现有方法，为AI辅助数学研究提供了新思路。这项工作对推动AI在科学计算和数学教育中的应用具有重要价值。

论文智能体形式数学推理模型 LLM LEAP

推荐理由：做数学研究或AI辅助证明的开发者，LEAP框架让LLM在形式数学上更可靠，值得一试。

原文

16:36

AI Will@FinanceYF5

76°

Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》，提出一种智能体框架，让通用大语言模型（非专用数学模型）在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明，在复杂问题上几乎失败（成功率低于10%）。LEAP 将证明过程分解为图结构的目标与子目标，允许模型规划步骤、重用已证明引理，并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上，LEAP 全部解出；在基于 IMO 风格的 60 道题基准上，通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足，而是缺乏与验证器的结构化交互方式。

论文形式数学 LEAP Lean验证器智能体框架推理模型

推荐理由：做 AI 推理、数学证明或形式化验证的团队会发现，LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题，值得直接看论文复现思路。

原文

12:58

arXiv: DeepSeek@Arslan Bisharat, Brian Ortiz, Eric Spencer, Khushboo Bhadauria, TaiNing Wang, George K. Thiruvathukal, Konstantin Laufer, Mohammed Abuhamad

精选

TLA+是亚马逊、微软等公司用于工业验证的形式化语言，但将自然语言转化为正确的TLA+规范仍需专家经验。本文首次系统评估了30个LLM（含8个模型家族）在205个TLA+规范上的表现，使用SANY解析器和TLC模型检查器验证。结果显示，LLM最高语法正确率26.6%，但语义正确率仅8.6%，且成功案例全部来自渐进式提示。模型大小与质量无关，例如DeepSeek r1:8b在所有策略上优于其70B版本，表明推理对齐对形式语言更重要。代码专用模型因主流语言训练的负迁移而表现更差。研究识别了五种幻觉类别，均与训练数据偏差有关。

论文 TLA+形式化验证 LLM评估推理模型幻觉分析

推荐理由：形式化验证团队终于有了LLM能力的基准数据——当前模型无法可靠生成TLA+规范，但渐进式提示和推理对齐是突破口，做形式化方法或分布式系统验证的开发者值得关注。

原文

12:57

arXiv: DeepSeek@Jinu Lee, Shivam Agarwal, Amruta Parulekar, Siddarth Madala, Dilek Hakkani-Tur, Julia Hockenmaier

精选72°

大型推理模型（LRM）产生的推理轨迹具有非线性结构（如回溯和自我修正），增加了评估和监控的难度。ReasoningFlow 框架将这些轨迹转化为细粒度的有向无环图（DAG），通过人工标注31条轨迹（2100步）验证了标注方案，并自动标注了1260条轨迹（247,700步），涵盖数学、科学和论证三个任务及五种模型。分析发现：不同LRM的推理结构相似；错误步骤大多不用于推导最终答案；机制性因果依赖与语言层面的话语结构不一致。该框架提升了推理过程的可监控性，数据集和代码已开源。

论文推理模型话语结构可解释性开源/仓库有向无环图

推荐理由：ReasoningFlow 解决了LRM推理轨迹难以评估和监控的痛点，做模型可解释性、推理质量分析的团队可以直接用开源工具和数据集来深入分析模型行为。

原文

12:42

arXiv: DeepSeek@Natalia Tarasova, Enrique Balp-Straffon, Aleksei Iancheruk, Yevhenii Sielskyi, Nikita Kozodoi, Liam H. Byrne, Jack Butler, Dayuan Jiang, Marcin Czelej, Andrew Ang, Yash Shah, Roi Blanco, Sergei Ivanov

精选

SWE-InfraBench 是一个新基准，用于评估大语言模型在云基础设施即代码（IaC）任务上的表现。与现有基准不同，它聚焦于 AWS CDK 的增量代码修改，而非从头生成整个代码库。数据集来自数十个真实 IaC 代码库，要求模型根据自然语言指令修改现有代码，并通过测试用例验证。评估结果显示，当前最强模型 Sonnet 3.7 的成功率仅为 34%，而推理模型 DeepSeek R1 只有 24%，表明 LLM 在云基础设施代码领域仍有显著局限。该数据集已在 Kaggle 上公开。

论文基准测试云基础设施 IaC AWS CDK 推理模型

推荐理由：云基础设施开发者终于有了一个贴近真实工作流的评估基准——SWE-InfraBench 测试的是增量修改而非从头写代码，做 IaC 或 DevOps 的团队值得关注，看看当前模型在 AWS CDK 上的真实表现。

原文

12:12