11:56Genspark@genspark_aiAnthropic 的 Claude Fable 5 模型已在 Genspark Code Agent 和 Genspark Claw 中上线,这是 Anthropic 最强大的 Mythos 级模型,已通过安全评估可日常使用。该模型在编程、研究、知识工作和视觉任务上达到业界领先水平,任务越长越复杂,优势越明显。用户可直接在 Genspark 平台体验这一最新模型。AI产品Claude Fable 5AnthropicGenspark编程助手推理模型10 个信源在谈推荐理由:Claude Fable 5 是 Anthropic 目前最强的可公开使用模型,在长复杂任务上表现突出,做编程、研究或知识工作的团队值得立即试用,体验其领先能力。原文
09:27Simon Willison@simonw83°Simon Willison 分享了对 Claude Fable 5 的初步印象,称其具有“大模型气味”:运行缓慢、价格昂贵,但几乎能处理他抛出的所有任务。该模型在复杂推理和多步骤任务上表现出色,但高昂的成本和延迟可能限制其普及。Willison 认为,对于需要极致能力的专业用户来说,Fable 5 是值得的,但对普通开发者而言,性价比仍是问题。AI模型Claude Fable 5大模型推理模型性能评测Simon Willison10 个信源在谈推荐理由:Claude Fable 5 的“大模型气味”揭示了当前顶尖模型的取舍——慢、贵但能力惊人。做复杂推理或高难度任务的开发者,值得看看 Willison 的实测感受,判断它是否值得你的预算。原文
08:14小互@imxiaohu72°Anthropic 计划于今晚发布其最强 AI 模型 Mythos,这将是该公司在 AI 领域的重要进展。Mythos 预计在推理、代码生成等任务上超越前代,可能对标 OpenAI 的 GPT-4 系列。消息来自知名爆料者小互,可信度较高。该发布可能引发新一轮 AI 模型竞争,值得关注。AI模型AnthropicMythos推理模型AI 模型发布GPT-4 对标10 个信源在谈推荐理由:Anthropic 新旗舰模型 Mythos 今晚发布,做 AI 应用开发或模型对比的团队可以第一时间关注,看看它能否在推理和代码任务上超越 GPT-4。原文
07:14orange.ai@oran_ge88°Claude Fable 5 今日正式发布,基于 Mythos 底座并新增安全护栏,是自 Claude 4.5 以来最重大的模型升级。该模型在软件工程、知识工作、视觉识别和科学研究等几乎所有基准测试中均处于顶尖水平,任务越复杂优势越明显。Andrej Kapathy 评价其能“解放思想”,用户可交付更大任务而无需检查代码。价格方面,输入 10 美元、输出 50 美元、缓存输入 1 美元,长文本场景下单句可能花费 10 美元,需注意配额。Claude Fable 5 将以原价在 Cola 平台上线供体验。AI模型Claude Fable 5Mythos安全护栏推理模型编程助手10 个信源在谈推荐理由:Fable 5 解决了复杂长任务执行中的模型能力瓶颈,做 AI 开发或重度使用的团队可以直接体验,感受“解放思想”的编程体验——但记得先设好预算配额。原文
06:49berryxia@berryxia83°Cohere 将 30B 参数的 MoE 小模型 North Mini Code 以 Apache 2.0 协议开源,仅 3B 活跃参数。该模型在 Artificial Analysis Coding Index 上达到 33.4 分,与同量级模型竞争,但可本地运行、自由修改。其核心优势在于针对 agentic coding 场景优化,让开发者能真正掌控 coding agent,而非依赖云端黑盒。此举打破了开源 coding 模型弱或慢的刻板印象,为社区提供了可自主进化的工具。AI模型开源/仓库编程助手推理模型CohereAgentic Coding推荐理由:Cohere 把 30B MoE 模型压缩到 3B 活跃参数还开源,做 agentic coding 的开发者终于能本地跑、随便改、不用租云端黑盒了,值得一试。原文
06:17Gary Marcus@GaryMarcusGary Marcus 在 X 上发文,质疑 Dwarkesh Patel 关于 AI 推理的论述。Marcus 指出,如果承认 LLM 在无法回答问题时可能模仿推理而非真正推理,那么当模型回答正确时,也应考虑同样的可能性,否则就是双重标准。这场辩论触及 AI 推理本质的核心问题,引发学界和业界对如何定义和验证 AI 推理能力的讨论。行业推理模型LLMGary MarcusAI 评估学术辩论推荐理由:Marcus 的质疑戳中了 AI 推理评估的软肋——做 AI 研究或评测的人,需要思考如何区分真正的推理与模仿,避免被表面正确的结果误导。原文
06:12Poe@poe_platform88°Anthropic 最强模型 Claude Fable 5 已在 Poe 平台上线。该模型专为长时间运行的复杂工作设计,如大规模代码迁移、深度研究和持续数小时或数天的智能体会话。在几乎所有测试基准上达到最先进水平,在编程、知识工作、科学研究和视觉任务中表现卓越。用户可通过 Poe 直接体验。AI模型Claude Fable 5AnthropicPoe推理模型编程助手10 个信源在谈推荐理由:做大规模代码迁移或深度研究的开发者终于有了能跑几天的模型——Claude Fable 5 在 Poe 上可直接用,建议试试它的长任务能力。原文
03:27Andrej Karpathy@karpathy91°Andrej Karpathy 在 X 上发文称,Claude Fable 5 是与 Mythos 同底层模型但增加了安全护栏的版本。他认为这是自 Claude 4.5 以来又一次重大版本跃升,尤其在长时复杂问题求解上表现惊艳。模型能理解更宏大的任务并自主推进,让人几乎不想再盯着代码。Karpathy 指出模型仍有小毛病,安全护栏在发布初期可能过于敏感,但整体上感觉软件开发正变得像水龙头一样即开即用。他预测杰文斯悖论将生效,自己对软件的需求会大幅增长。AI模型Claude Fable 5推理模型编程助手Karpathy安全护栏10 个信源在谈推荐理由:Karpathy 的实测感受比任何跑分都有说服力——Claude Fable 5 让复杂编程任务变得像对话一样自然,做 AI 应用或深度编程的开发者值得亲自体验这种“放手让模型干”的新感觉。原文
03:17AI SDK@aisdk72°AI SDK 宣布支持 Claude Fable 5,这是 Claude 推出的 Mythos 级模型,能力超越此前所有公开发布版本。该模型已通过安全评估,可面向一般用户使用。开发者可通过 AI SDK 直接调用,简化集成流程。此举意味着更强大的推理和生成能力将更快落地到实际应用中。AI产品ClaudeFable 5AI SDK推理模型模型集成10 个信源在谈推荐理由:AI SDK 用户可以直接用上 Claude 最强模型,做复杂推理或内容生成的团队值得立即尝试。原文
03:12Aadit Sheth@aaditsh91°Anthropic 今日推出新模型 Claude Fable 5,属于 Mythos 级别,性能超越此前所有通用模型。Stripe 用它一天内完成了 5000 万行 Ruby 代码的全库迁移,而人工需要两个月。该模型仅凭屏幕截图就通关了《宝可梦 火红》,无需地图或导航工具。在药物设计中,它为 14 个蛋白靶点中的 9 个设计了候选分子,其中一项科学假设被独立实验室证实。定价为每百万输入 token 10 美元、每百万输出 token 50 美元,不到前代顶级模型的一半。AI模型Claude Fable 5Anthropic代码迁移药物设计推理模型10 个信源在谈推荐理由:Claude Fable 5 在代码迁移、游戏通关和药物设计上展示了惊人的自主能力,且价格大幅降低,做 AI 应用开发或科研的团队值得立即关注。原文
03:10OpenRouter@OpenRouterAI88°Anthropic 最新发布的 Claude Fable 5 模型已在 OpenRouter 平台上线。该模型专为长时间、模糊性高的编程任务设计,如遗留系统迁移、复杂生产环境 bug 修复和持续数小时甚至数天的异步会话。它在几乎所有测试基准上达到了最先进水平(SOTA),是 Anthropic 目前最强大的编程模型。开发者现在可以通过 OpenRouter 直接调用该模型。AI模型Claude Fable 5Anthropic编程助手OpenRouter推理模型10 个信源在谈推荐理由:做遗留系统迁移或处理复杂生产 bug 的团队,终于有了一个能扛住长时间模糊任务的模型,值得在 OpenRouter 上试一把。原文
03:00Replicate@replicate72°Anthropic 最新模型 Claude Fable 5 现已通过 Replicate 平台正式向公众开放。该模型属于 Mythos 级别,性能超越此前所有公开发布的模型,在推理、代码生成和复杂任务处理上表现突出。Replicate 提供了便捷的 API 和在线试用入口,开发者可以立即体验。AI模型AnthropicClaude Fable 5推理模型Replicate模型发布10 个信源在谈推荐理由:Claude Fable 5 是 Anthropic 目前最强的公开模型,性能全面超越前代,做 AI 应用开发或需要高推理能力的团队可以直接通过 Replicate 试用,值得第一时间上手。原文
02:54Lenny Rachitsky@lennysanClaude 的 Fable 5 模型在几乎所有测试基准上达到最先进水平,尤其在软件工程、知识工作、科学研究和视觉任务中表现突出。任务越长越复杂,Fable 5 相对于其他模型的领先优势越大。该模型在单次交互中即可完成《波斯王子》游戏,展示了其强大的推理和规划能力。这标志着 AI 在复杂长任务处理上的重要进步。AI模型ClaudeFable 5基准测试软件工程推理模型10 个信源在谈推荐理由:做复杂软件工程或科学研究的团队,Fable 5 的长任务处理能力值得一试,能显著提升效率。原文
02:14Mike Krieger@mikeyk88°Anthropic CEO Mikey K. 在X上宣布,Claude新模型在几乎所有测试基准上达到最先进水平,且任务越长领先优势越大。该模型已通过安全审查,针对网络和生物相关请求会透明地回退到Opus 4.8,95%以上的会话不会触发此类回退。API定价为$10/$50,并已包含在付费Claude计划中。AI模型Claude推理模型安全API基准测试10 个信源在谈推荐理由:Claude新模型在长任务场景下表现突出,做复杂推理或长文档处理的开发者可以直接在API或付费计划中体验,值得关注。原文
01:52The Rundown AI@therundownaiClaude Fable 5 已正式发布,这是 Anthropic 推出的新一代 AI 模型。该模型在推理、编程和对话能力上均有显著提升,尤其在复杂任务处理上表现更优。Fable 5 的发布标志着 AI 模型在实用性和性能上的又一次飞跃,为开发者和企业用户提供了更强大的工具。AI模型ClaudeFable 5推理模型编程助手Anthropic10 个信源在谈推荐理由:Anthropic 的 Fable 5 在推理和编程能力上大幅提升,做 AI 应用开发或需要高效对话模型的团队值得关注,可以直接体验新能力。原文
01:48The Rundown AI@therundownai88°Anthropic发布了Claude Fable 5,定位为“面向最困难知识工作和编程问题的下一代智能”。该模型在几乎所有AI能力基准测试中达到最先进水平,尤其在软件工程、知识工作、视觉、科学研究等领域表现卓越。同时,Anthropic还推出了Claude Mythos 5,面向一小群网络防御者和基础设施提供商,其安全限制较少。这一发布标志着AI在专业领域应用的重要进展。AI模型Claude Fable 5Anthropic推理模型编程助手知识工作10 个信源在谈推荐理由:做知识工作和编程的团队终于有了更强大的AI助手——Claude Fable 5在多个基准上领先,值得直接上手试试。原文
01:21PolymarketMoney@PolymarketMoneyAnthropic 正式发布了其迄今为止最强大的 AI 模型 Claude Fable,该模型基于 Mythos 架构。Claude Fable 在推理、创造力和多模态能力上均有显著提升,旨在与 OpenAI 的 GPT-5 和 Google 的 Gemini 2.0 竞争。此次发布标志着 AI 领域新一轮性能竞赛的开始,开发者可期待更智能的对话和任务处理体验。AI模型AnthropicClaude Fable推理模型MythosAI 竞赛10 个信源在谈推荐理由:Claude Fable 是 Anthropic 目前最强的模型,做 AI 应用开发的团队值得第一时间上手测试,看看它在复杂推理和创意任务上的表现是否超越预期。原文
01:08Claude@claudeai精选Fable 5 在几乎所有测试基准上取得最先进成绩,尤其在软件工程、知识工作、科学研究和视觉领域表现卓越。其性能随着任务长度和复杂性增加而领先其他模型更多。此版本在多项评估中展现了全面优势。AI模型Fable 5推理模型多模态软件工程10 个信源在谈推荐理由:Fable 5 全面领先,复杂任务更强原文
00:50rohanpaul_ai@rohanpaul_ai88°Anthropic 于今日推出 Claude Mythos 的公开版本,代号“Fable”。该模型定价为 Opus 的两倍,但低于此前 Mythos 预览版 5 倍 Opus 的传闻价格。Fable 将附带严格的安全限制,在网络安全使用上不如之前给 Project Glasswing 合作伙伴的受限预览版开放。该模型在长周期、多步骤任务和智能体工作流方面预计表现更强。Mythos 最初于 2026 年 4 月以预览形式推出,在编码、推理和网络安全领域能力突出,但因安全问题未公开发布。AI模型Claude MythosFableAnthropic推理模型智能体10 个信源在谈推荐理由:Anthropic 终于把最强模型 Mythos 公开了,虽然价格不菲但比预期便宜,做复杂智能体任务和长流程自动化的团队可以直接评估是否值得投入。原文
17:09歸藏(guizang.ai)@op741878°MiMo 推出 V2.5 Pro UltraSpeed 模型,实现每秒输出超过 1000 Token,成为全球首个达到此速度的万亿参数模型。实测中,复杂 3D 游戏生成峰值达 1426 Token/s,32 秒输出 25624 Token。该模型在保持高推理速度的同时,未出现能力下降,适合 Agent 和并发场景。藏师傅的测试显示,其首次响应时间低至 0.83 秒,代码生成质量高。目前面向 To B 客户,成本有待优化。AI模型MiMo超高速模型万亿参数推理模型Agent场景推荐理由:万亿参数模型跑出 1000+ Token/s 的速度,做 Agent 和实时交互的开发者可以直接体验,效率提升肉眼可见。原文
16:23PolymarketMoney@PolymarketMoney72°据 Polymarket 报道,Anthropic 将于明天发布其新 AI 模型“Mythos”。该消息来自社交媒体平台 X 上的爆料,目前尚未得到 Anthropic 官方确认。Mythos 可能延续 Anthropic 在安全性和推理能力上的优势,或将对标 GPT-5 等前沿模型。若消息属实,这将是 AI 领域近期最受瞩目的发布之一。AI模型AnthropicMythos模型发布AI 前沿推理模型10 个信源在谈推荐理由:Anthropic 新模型 Mythos 即将发布,关注前沿 AI 动态的开发者可以提前了解,明天值得蹲守。原文
02:53NotebookLM@NotebookLMGoogle 的 NotebookLM 推出重大更新,新增智能体式对话、更高级的推理能力以及多种输出格式。这些功能首先面向 Google AI Ultra 订阅用户和 Workspace 商业客户开放,未来计划扩展到更多用户。升级后的 NotebookLM 能处理复杂、多步骤的研究问题,大幅提升效率。此次更新标志着 NotebookLM 从笔记工具向智能研究助手的转型。AI产品NotebookLM智能体研究助手Google AI Ultra推理模型推荐理由:NotebookLM 这次升级把研究效率拉高了一个台阶,做学术、市场或产品调研的团队可以直接用上智能体对话和多格式输出,省去手动整理资料的麻烦。原文
02:51NotebookLM@NotebookLM78°Google 的 NotebookLM 迎来重大升级,新增智能体对话能力、更高级的推理功能以及多种新输出格式。用户现在可以更轻松地处理复杂、多步骤的研究问题。该更新已向 Google AI Ultra 订阅用户开放。此次升级使 NotebookLM 从简单的笔记工具转变为更强大的研究助手。AI产品NotebookLM智能体推理模型研究助手Google AI推荐理由:做深度研究或复杂信息整理的团队终于有了更智能的工具——NotebookLM 现在能像智能体一样处理多步骤问题,AI Ultra 订阅用户可以直接体验。原文
01:40Clement Delangue@ClementDelangue精选斯坦福大学研究显示,本地模型在真实世界聊天和推理查询中的准确率从2023年的23.2%提升至71.3%。该研究对比了本地模型与前沿API的成本和能耗,发现本地模型以极低代价实现了大部分任务。研究指出,多数工作负载无需依赖前沿模型,未来将是本地、开源、较小模型的天下。论文Stanford本地模型前沿API推理模型推荐理由:本地模型性价比超高原文
00:44OpenRouter@OpenRouterAI精选OpenRouter 宣布其平台支持智能体仅在需要时调用前沿推理模型,其余操作使用低成本小模型,从而大幅降低运行成本。用户只需在工具列表中添加一个条目,即可开始迁移至更经济的定价曲线。这一功能解决了智能体长期运行中推理成本高昂的问题,尤其适合需要频繁调用 AI 的开发者或团队。目前该功能已上线,用户可通过 OpenRouter 文档中的指南快速上手。AI产品智能体推理模型成本优化OpenRouterAPI/平台推荐理由:做 AI 智能体开发的团队终于不用为每次推理都付高价了——OpenRouter 让前沿模型只在必要时出场,其余用低成本小模型,建议直接试试这个配置,能省不少钱。原文
02:53rohanpaul_ai@rohanpaul_ai精选一篇关于推理模型训练后如何改进的入门论文指出,更好的推理模型更依赖于可检查的训练证据,而非原始数据规模。论文强调,推理数据不是简单的问答对,真正有价值的是反馈信号,它解释了答案、步骤、工具调用或完整尝试的好坏。作者将推理数据按检查方式分类,包括基于规则的精确检查(数学、代码)、环境检查(智能体工具使用)以及人工或模型判断。论文还揭示了常见误区:长推理链可能是虚假的,更难的数据对某些模型无用,更大的数据集可能仍缺乏关键覆盖。关键结论是,智能体数据应保留失败、重试、恢复等混乱信息,因为学习信号往往隐藏其中。论文推理模型训练数据检查信号智能体论文推荐理由:这篇论文戳破了推理模型训练中“数据越多越好”的迷思,做模型训练或智能体开发的团队值得一读——它告诉你该关注什么数据,而不是盲目堆量。原文
08:18NVIDIA AI@NVIDIAAINVIDIA 正式推出 Nemotron 3 Ultra 模型,并同步发布了详细的设置教程,指导用户如何在智能体框架中集成该模型。官方还展示了多个能力演示视频,涵盖推理、编程等场景。该模型旨在提升 AI 智能体的性能,为开发者提供更强大的基础模型选择。教程和演示资源已公开,方便开发者快速上手。AI模型NVIDIANemotron 3 Ultra智能体教程推理模型10 个信源在谈推荐理由:NVIDIA 为智能体开发者提供了开箱即用的教程和演示,做 AI 应用集成的团队可以直接参考,省去自己摸索的时间。原文
22:18Paul Couvert@itsPaulAi72°NVIDIA 发布了开源模型 Nemotron 3 Ultra,专为智能体任务和编程设计。该模型在性能上接近闭源模型 GPT 5.5,但推理成本仅为后者的十分之一($0.051 vs $0.57)。Nemotron 3 Ultra 速度比同类模型快5倍,成本低30%,已在 Hugging Face 上开源。这标志着开源模型与闭源模型之间的质量差距正在迅速缩小,尤其适合处理大型代码库和智能体应用。AI模型NVIDIANemotron 3 Ultra开源模型推理模型编程助手10 个信源在谈推荐理由:开源模型性能逼近闭源,成本却低一个数量级——做智能体或编程的开发者可以直接在 Hugging Face 上试用,省下不少推理预算。原文
16:37AI Will@FinanceYF5LEAP是一个新型智能体框架,旨在提升大型语言模型在形式数学领域的应用能力。该框架通过多智能体协作和结构化推理,解决了LLM在数学证明和定理推导中的准确性和可解释性问题。实验表明,LEAP在多个形式数学基准上显著优于现有方法,为AI辅助数学研究提供了新思路。这项工作对推动AI在科学计算和数学教育中的应用具有重要价值。论文智能体形式数学推理模型LLMLEAP推荐理由:做数学研究或AI辅助证明的开发者,LEAP框架让LLM在形式数学上更可靠,值得一试。原文
16:36AI Will@FinanceYF576°Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》,提出一种智能体框架,让通用大语言模型(非专用数学模型)在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明,在复杂问题上几乎失败(成功率低于10%)。LEAP 将证明过程分解为图结构的目标与子目标,允许模型规划步骤、重用已证明引理,并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上,LEAP 全部解出;在基于 IMO 风格的 60 道题基准上,通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足,而是缺乏与验证器的结构化交互方式。论文形式数学LEAPLean验证器智能体框架推理模型推荐理由:做 AI 推理、数学证明或形式化验证的团队会发现,LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题,值得直接看论文复现思路。原文
11:43AI Will@FinanceYF583°Google 发布了 Gemma 4 12B 模型,这是一个支持视觉、音频、推理和智能体能力的多模态 AI 模型。该模型采用 Apache 2.0 开源协议,可以在本地笔记本电脑上运行,无需依赖重型编码器堆栈。这意味着开发者可以在离线环境中部署强大的 AI 功能,同时保持数据隐私。Gemma 4 12B 的发布进一步降低了多模态 AI 的应用门槛,适合个人开发者和中小企业使用。AI模型多模态开源/仓库本地部署推理模型Gemma推荐理由:多模态模型终于能本地跑了,做边缘计算或隐私敏感应用的开发者可以直接上手试试,Apache 2.0 协议也省了授权烦恼。原文
11:42AI Will@FinanceYF583°谷歌发布了 Gemma 4 12B,一款轻量级多模态 AI 模型,无需重型编码器栈即可在笔记本电脑上本地运行。该模型支持视觉、音频、推理和智能体四大核心能力,采用 Apache 2.0 开源协议。这降低了多模态 AI 的硬件门槛,让个人开发者和小团队也能在本地部署和实验。对于关注边缘计算和隐私保护的 AI 从业者来说,这是一个值得关注的开源选择。AI模型多模态模型开源/仓库本地部署推理模型Gemma推荐理由:Gemma 4 12B 让多模态 AI 真正跑在笔记本上,做本地推理、智能体或隐私敏感应用的开发者可以直接拿来用,省去云端依赖。原文
06:37NVIDIA AI@NVIDIAAINVIDIA 发布了 Nemotron 3 Ultra 模型,在智能体任务(如代理生产力、编程和长程规划)上实现了领先的准确性。该模型针对复杂、多步骤的 AI 任务进行了优化,有望提升自动化工作流的效率。这一进展对构建智能体系统的开发者和企业具有重要意义,标志着 NVIDIA 在 AI 模型领域的持续投入。AI模型NVIDIANemotron 3 Ultra智能体编程助手推理模型10 个信源在谈推荐理由:做智能体开发或自动化流程的团队,Nemotron 3 Ultra 在编程和长程规划上的领先精度值得关注,建议点开看看具体评测数据。原文
06:26rohanpaul_ai@rohanpaul_ai76°Google 发布新论文 LEAP,提出一种智能体框架,让通用大语言模型(LLM)能够通过规划证明步骤、分解子目标、重用已有引理并与形式验证器 Lean 交互,显著提升形式数学证明能力。在 Putnam 2025 和 IMO 风格基准测试中,LEAP 将通用 LLM 的成功率从不足 10% 提升至 70%,并解决了所有 12 道 Putnam 2025 问题。该研究揭示了通用 LLM 在形式数学中的弱点并非数学能力不足,而是缺乏与验证器的结构化交互。LEAP 将证明存储为有向图,支持子目标复用,避免一次性生成庞大证明的失败模式。论文GoogleLEAP形式数学智能体推理模型推荐理由:这项研究解决了通用 LLM 在形式数学中「一次性写完整证明」的致命短板,做 AI 推理、数学辅助工具或形式验证的开发者值得关注——LEAP 的智能体框架思路可能启发更多复杂推理场景的改进。原文
05:06Mustafa Suleyman@mustafasuleyman76°微软CEO Mustafa Suleyman在X上宣布发布MAI系列模型,包括MAI-Thinking-1推理模型、MAI-Transcribe-1.5转录模型、MAI-Voice-2语音生成模型、MAI-Code-1-Flash编程模型和MAI-Image-2.5图像模型。MAI-Thinking-1在SWE-Bench Pro上达到53%,与Opus 4.6并列最强编码基准。MAI-Transcribe-1.5在43种语言上超越Gemini和OpenAI,速度快5倍。MAI-Code-1-Flash仅5B激活参数,SWE-Bench Pro达51%。微软还发布了109页详细技术报告,强调前沿没有捷径,需要严谨、耐心和细节关注。AI产品微软MAI-Thinking-1推理模型编程助手语音模型10 个信源在谈推荐理由:微软一口气推出7款模型,覆盖推理、编码、语音、图像全场景,MAI-Thinking-1在编码基准上追平Opus 4.6,做AI应用开发或模型选型的团队值得关注这份109页技术报告。原文
04:43The Rundown AI@therundownaiAnthropic 发布了一篇关于递归 AI 研究的完整博文,探讨如何让 AI 系统在复杂任务中自我改进和迭代。该研究聚焦于提升 AI 的自主推理能力,可能对长期任务执行和智能体开发产生重要影响。文章详细介绍了递归自我改进的技术路径和实验成果,为 AI 安全与能力提升提供了新思路。AI模型递归AI自我改进Anthropic推理模型AI安全10 个信源在谈推荐理由:做 AI 智能体或自主推理研究的开发者值得关注——递归自我改进是解决长任务执行瓶颈的关键方向,Anthropic 的这篇博文提供了具体技术细节和实验数据,建议直接阅读原文。原文
00:50Geek@geekbb英伟达推出 Nemotron 3 Ultra 大模型,定位为前沿开放模型,专为需要规划、推理、使用工具并持续工作的长时运行智能体设计。该模型在复杂编程、研究和企业工作流中表现突出,推理速度提升高达 5 倍,智能体任务成本降低 30%。尽管英伟达此前的大模型产品常被评价“差口气”,但此次 Nemotron 3 Ultra 在智能体场景的针对性优化可能改变这一局面。AI模型英伟达Nemotron 3 Ultra智能体推理模型开源/仓库9 个信源在谈推荐理由:英伟达终于瞄准了智能体这个爆发赛道,做自动化编程、企业流程编排的团队可以关注——Nemotron 3 Ultra 的 5 倍推理加速和 30% 成本降低,可能让长任务智能体真正落地。原文
00:30Fireworks AI@FireworksAI_HQ76°NVIDIA 的 Nemotron 3 Ultra 模型已在 Fireworks 平台上线,这是一款面向前沿推理和长时间运行自主智能体编排的开源模型。该模型专为编码智能体、深度研究和复杂企业工作流等场景设计,旨在提升 AI 在长周期任务中的自主决策与执行能力。Fireworks 提供了零日支持,开发者可立即使用。AI模型推理模型智能体开源/仓库编程助手NVIDIA10 个信源在谈推荐理由:做复杂自动化智能体的团队终于有了开源推理模型的新选择——Nemotron 3 Ultra 专为长任务编排优化,编码和深度研究场景的开发者可以直接上手试。原文
23:46AI SDK@aisdkAI SDK 7 的 canary 版本引入了顶层 reasoning 参数,允许开发者在不依赖 provider options 的情况下配置推理努力(reasoning effort)。这意味着可以更简洁、统一地控制模型推理深度,无需为不同提供商单独设置。该更新简化了推理配置流程,提升了跨平台兼容性。对于需要精细控制模型推理行为的 AI 应用开发者来说,这是一个实用的改进。AI产品AI SDK推理模型开发工具配置优化canary推荐理由:简化推理配置是 AI 开发中的常见痛点,做多模型集成或推理链优化的开发者可以直接用这个顶层参数省掉一堆 provider 适配代码。原文
23:26SiliconFlowAI@siliconflowaiNex 团队推出 Nex-N2-Pro 模型,基于 Qwen3.5-397B-A17B,在多项基准测试中达到 GPT-5.5 和 Claude Opus 4.7 级别性能。该模型为 397B MoE 推理模型,支持 262K 上下文和视觉语言任务,能自动调整推理深度,减少 30-50% 的思考 token 而不牺牲性能。在 Terminal Bench 2.1、GDPVal 和 SWE-Verified 上取得 SOTA 成绩,擅长智能体编程、深度搜索和工具使用。SiliconFlow 已提供 T+0 支持,前两周免费使用。AI模型推理模型MoE开源/仓库智能体编程Qwen推荐理由:做智能体编程或深度搜索的团队,现在就能免费试用一个对标顶级闭源模型的开源 MoE 模型,且能直接接入 Claude Code、Cursor 等工具,值得立即体验。原文