23:05berryxia@berryxiaQwen 3.7 Max 正式发布,博主使用经典的「AI模型二叉树Prompt」对其进行了深度思考和快速模式测试。该Prompt要求模型编写HTML程序绘制递归分形二叉树,并实现生长动画和摇曳效果。测试结果通过视频展示,并与之前的Gemini 3.5 Flash结果进行了对比。用户可自行测试不同模型在该任务上的表现。AI模型Qwen 3.7 Max推理模型编程助手模型评测分形二叉树推荐理由:Qwen 3.7 Max 的发布值得关注,尤其是对AI模型编程能力感兴趣的开发者,可以用这个二叉树Prompt亲自测试它的表现,看看它和Gemini 3.5 Flash相比如何。原文
22:15阿里通义 Qwen@Alibaba_Qwen阿里发布 Qwen3.7-Max 旗舰模型,在 Artificial Analysis Intelligence Index 上获得 56.6 分,比 Qwen3.6-Max-Preview 提升 4.8 分。主要改进集中在科学推理、智能体能力和编程能力,同时幻觉率大幅下降。模型上下文窗口从 256K 提升至 1M 令牌,但仅支持文本输入输出。虽然仍落后于 OpenAI、Anthropic 和 Google 的模型,但这是阿里最接近前沿模型的一次。AI模型Qwen3.7-Max阿里推理模型智能体编程助手10 个信源在谈推荐理由:阿里 Qwen 系列持续追赶前沿,Qwen3.7-Max 在推理和智能体能力上进步明显,做 AI 应用开发或模型选型的团队值得关注这次性能跃升。原文
21:55阿里云 Alibaba Cloud@alibaba_cloud83°阿里云发布了 Qwen3.7-Max 模型,在 Artificial Analysis Intelligence Index 上获得 56.6 分,比预览版 Qwen3.6-Max-Preview 提升了 4.8 分。该模型在科学推理、智能体能力、编程和减少幻觉方面均有显著改进。这标志着阿里在大模型领域的持续迭代和竞争力提升。AI模型Qwen3.7-Max阿里云推理模型智能体编程助手推荐理由:Qwen3.7-Max 在推理和智能体能力上大幅跃升,做 AI 应用开发和科学计算的团队值得关注,可以直接测试其编程和 agent 表现。原文
21:05Patrick Loeber@patloeber76°Gemini 3.5 Flash (Medium) 在 Zapier 的 AutomationBench 基准测试中夺得第一,得分 14.5%,远超 GPT 5.5 (xhigh) 的 12.9%。值得注意的是,中等推理设置(medium)表现优于高推理(high),因为高推理会过度消耗工具调用限制。该模型还以约 7 倍的成本优势领先,成为目前最持久的自动化模型。Google 已推荐将 medium 作为默认 API 设置,适用于大多数任务。AI模型Gemini 3.5 FlashAutomationBench推理模型成本优化API 设置推荐理由:做自动化流程的开发者终于有了性价比之选——Gemini 3.5 Flash 不仅性能领先,成本还低 7 倍,建议直接试试 medium 设置。原文
17:28orange.ai@oran_ge93°OpenAI 一个未公布的内部推理模型自主解决了 Erdős 1946 年提出的平面单位距离问题,这是 AI 首次独立解决一个数学领域的著名开放问题。模型的思维链长达 125 页,核心手法是从代数数论引入工具解决离散几何问题,这种跨领域连接是人类 80 年未曾想到的。该模型并非专为数学训练,而是通用推理模型,表明推理能力达到一定阈值后创造性会自然涌现。这一成果被认为是 AI 发展的里程碑时刻。AI模型推理模型数学OpenAI创造性涌现未公开模型10 个信源在谈推荐理由:这是 AI 首次自主解决数学开放问题,证明了通用推理模型能跨领域创造新解法,做 AI 研究和数学研究的都该看看——它可能改变我们对 AI 创造力的认知。原文
15:49rohanpaul_ai@rohanpaul_ai精选72°一种名为GRAM(生成式递归推理)的新模型,仅用1000万参数,通过同时探索多条推理路径,在硬数独谜题上达到97%准确率,超越此前最佳递归模型(87.4%)。传统递归模型是确定性的,容易陷入错误轨迹,而GRAM在每个推理步骤注入随机性,生成多样化的推理路径,并在测试时并行运行并选择最佳结果。在N皇后等多解任务中,GRAM保持近乎完美的准确率,而确定性模型随解数量增加而崩溃。此外,GRAM还能作为生成器,用16步生成有效数独谜题,成功率99%,远超扩散模型。论文推理模型并行推理随机性数独GRAM推荐理由:GRAM用随机性打破了递归模型的确定性瓶颈,做推理模型或搜索算法的研究者可以直接复现,做数独或组合优化应用的团队值得关注。原文
14:57rohanpaul_ai@rohanpaul_ai83°OpenAI 的通用推理模型成功推翻了一个自 1946 年以来的 Erdős 平面单位距离猜想,证明了存在无限族构造能多项式改进已知上界。关键在于该模型并非专用定理证明引擎,而是通过增加测试时计算(推理阶段思考)来提升表现,无需大量领域特化训练。这一突破展示了通用推理系统在数学探索中的潜力,能够跨越几何与代数数论(如类域塔理论)的鸿沟,发现人类因学科边界和直觉限制而忽略的路径。外部数学家已验证了该证明的正确性。AI模型推理模型数学OpenAIErdős 猜想测试时计算10 个信源在谈推荐理由:OpenAI 用通用推理模型解决了一个困扰数学家近 80 年的难题,证明 AI 不需要专用引擎也能做前沿数学研究。做 AI 推理或数学建模的团队值得关注——它展示了“推理时计算”比“更多训练”更能带来突破。原文
14:35AI Will@FinanceYF588°OpenAI 的一个通用推理模型独立解决了数学家 Paul Erdős 在 1946 年提出的“平面单位距离问题”,这是 AI 首次自主解决一个数学领域的著名开放问题。该问题困扰了数学界近 80 年,此前最优解被认为接近正方形网格,而 AI 发现了一种全新的构造方式,表现更优。这一突破标志着 AI 开始具备长链条、跨领域推理能力,未来可能加速生物学、医学、工程学等领域的进展。但决定问题和解读结果的仍然是人类,AI 只是工具。AI模型OpenAI推理模型数学突破平面单位距离问题AI 自主推理10 个信源在谈推荐理由:这是 AI 首次自主解决数学开放问题,做数学研究或 AI 推理的开发者值得关注——它展示了 AI 在长链条推理上的潜力,建议点开看看具体突破。原文
12:11arXiv cs.LG@Kaiyi Zhang, Wei Wu, Yankai Lin精选DelTA提出了一种新方法,解决强化学习从可验证奖励(RLVR)中训练大语言模型时,token级信用分配不准确的问题。研究发现,标准RLVR更新中,高频格式token会主导梯度方向,掩盖真正区分高/低奖励的关键token。DelTA通过估计token系数,放大判别性方向、抑制共享模式,使更新更聚焦于推理关键步骤。在7个数学基准上,DelTA在Qwen3-8B和14B上分别平均提升3.26和2.62分,代码生成和跨领域任务也验证了其泛化能力。论文强化学习Token信用分配推理模型RLVR数学推理推荐理由:做RLHF或推理模型训练的团队,终于有了一个能精准分配token级信用的方法——DelTA解决了高频格式token淹没关键信号的问题,数学和代码任务上效果显著,值得在自家模型上试试。原文
12:09arXiv cs.LG@Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng精选76°研究发现强化学习(RLVR)训练中模型权重的变化轨迹是低秩且高度可预测的,大部分性能提升来自秩-1近似。基于此,研究者提出RELEX方法,仅需观察少量训练步数(如50步),通过线性回归外推未来检查点(如1000步),即可匹配甚至超越完整RLVR训练的性能。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上验证,RELEX仅需15%的训练步数即可达到同等效果,且能外推至10-20倍于观察窗口。该方法无需额外学习模型,通过丢弃随机优化噪声实现去噪效果,从而提升外推性能。论文强化学习推理模型低秩近似参数外推Qwen推荐理由:RLVR训练成本高昂,RELEX用极低成本实现同等推理提升,做LLM推理优化的团队可以直接用代码复现,值得一试。原文
11:55arXiv cs.LG@Benhao Huang, Zhengyang Geng, Zico Kolter精选Equilibrium Reasoners (EqR) 是一种新的推理框架,通过将推理过程建模为学习任务条件吸引子(latent dynamical systems)来实现可扩展的测试时计算。该框架无需外部验证器或任务特定先验,通过增加迭代深度(更多步数)和广度(聚合多个随机轨迹)来提升性能。实验表明,测试时计算的增益与向解对齐吸引子的收敛程度紧密相关。在 Sudoku-Extreme 任务上,EqR 通过展开多达 40,000 层,将前馈模型的准确率从 2.6% 提升至超过 99%。这一视角为理解迭代潜在模型中的可扩展推理提供了机制性解释。论文推理模型测试时计算吸引子可扩展性EqR推荐理由:EqR 用吸引子理论解释了为什么迭代推理能泛化,做推理模型或可扩展计算的团队值得关注——它可能改变你对测试时计算分配的理解。原文
11:01arXiv cs.AI@Sixiong Xie, Zhuofan Shi, Haiyang Shen, Jiuzheng Wang, Siqi Zhong, Mugeng Liu, Chongyang Pan, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma精选72°DeepWeb-Bench 是一个新的深度研究基准,旨在评估 AI 模型在开放网络上进行复杂研究的能力。与现有基准不同,该基准要求模型进行大规模证据收集、跨来源整合和长链条多步推理,难度显著提升。研究对九个前沿模型进行了评估,发现检索并非主要瓶颈(仅占12-14%错误),而推导和校准失败占70%以上。强模型和弱模型的失败模式不同:强模型主要因推导不完整出错,弱模型则因虚假精确性出错。该基准还揭示了模型在领域上的真实专长差异,跨模型一致性仅为0.61。论文基准测试深度研究推理模型评估方法DeepWeb-Bench推荐理由:做 AI 评估或研究基准的团队会发现,DeepWeb-Bench 揭示了现有基准无法区分的模型能力差异——尤其是推导和校准的短板。建议关注其分能力族评估和来源溯源设计,这对理解模型真实研究能力很有帮助。原文
10:22arXiv cs.LG@Xixiang He, Qiyao Sun, Ao Cheng, Xingming Li, Xuanyu Ji, Hailun Lu, Runke Huang, Qingyong Hu精选72°Group Relative Policy Optimization (GRPO) 在提升大语言模型推理能力方面表现出色,但存在优势坍塌问题:当组内奖励同质化(如全对或全错)时,优势趋近于零,导致梯度消失。研究者首次提出诊断指标 Advantage Collapse Rate (ACR),量化训练批次中梯度无效的比例,并在0.5B至14B参数模型上验证了ACR对训练停滞和最终性能的强预测性。为缓解该问题,他们提出 Adaptive Virtual Sample Policy Optimization (AVSPO),通过实时ACR监控注入虚拟奖励样本,无需额外模型推理即可从同质组中学习。AVSPO将优势坍塌减少58-63%,在所有模型规模上带来4-6个百分点的准确率提升,且保持了域外泛化能力。代码和数据集已开源。论文GRPO优势坍塌RLVR推理模型开源/仓库推荐理由:GRPO用户终于有了解决训练停滞的实用工具——AVSPO无需额外推理成本就能提升4-6个点准确率,做大模型RL训练的团队可以直接试。原文
10:22arXiv cs.LG@Lukas Twist, Helen Yannakoudakis, Jie M. Zhang精选论文揭示了一个关键问题:推理模型在微调时,若使用不含推理痕迹的普通指令-回复数据,会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案,但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架,将答案正确性与推理痕迹有效性分离,测量有效、空、缺失和截断的推理痕迹。实验发现,标准监督微调会迅速抑制有效推理痕迹,而仅看答案正确率会掩盖这一失败。论文还表明,简单的损失掩码策略可以显著缓解坍塌,无需教师生成的推理痕迹。论文推理模型微调推理痕迹坍塌评估框架损失掩码推荐理由:做推理模型微调的团队必须警惕:只看答案正确率会误判模型能力,这篇论文给出了评估和缓解方案,建议做模型对齐的开发者仔细阅读。原文
09:35SuperTechFans(博客/媒体)83°谷歌发布了 Gemini 3.5 系列模型,其中 3.5 Flash 版本在多项基准测试中表现优异,输出速度是其他前沿模型的 4 倍,特别适合大规模多步骤代理任务。该模型已通过 Gemini 应用、Google 搜索等渠道上线,开发者可通过 Antigravity 平台和 API 使用。推测其采用混合精度(FP4/FP8)和较少活跃参数,在保持高性能的同时降低成本。这一发布标志着智能代理技术的新突破,有望推动 AI 在复杂场景中的广泛应用。AI模型Gemini 3.5 Flash推理模型低延迟代理任务谷歌推荐理由:Gemini 3.5 Flash 解决了高智能与低延迟的矛盾,做多步骤代理和编码的开发者可以直接用上,成本还更低,值得一试。原文
08:00IT之家(博客/媒体)83°谷歌在 2026 I/O 开发者大会上宣布,Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用,官方称其进步非常强,但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速,Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升,值得开发者和 AI 从业者关注。AI模型Gemini 3.5 Pro谷歌推理模型多模态AI 模型发布1 个信源在谈推荐理由:谷歌 Gemini 系列模型迭代节奏加快,3.5 Pro 内部使用已获「进步超强」评价,做多模态或推理应用的开发者值得提前关注,下月发布后可直接上手体验。原文
07:59IT之家(博客/媒体)在 AMD AI 开发者日活动上,CEO 苏姿丰表示 AI 进步令人难以置信,预计未来五年将有 50 亿人每日使用 AI。她强调不存在单一应用满足需求,需要多样化的模型和工作流。苏姿丰称这是她 30 多年科技生涯中最兴奋的时刻,AI 在最近几个月加速发展,推理型 AI 更普遍,企业 CEO 们都在讨论如何利用 AI。她指出 AI 技术需要推理、学习和数据流能力,智能体是关键,未来 GPU 将无处不在,AMD 将提供端到端计算能力。行业AMD苏姿丰AI 趋势推理模型智能体推荐理由:苏姿丰的发言揭示了 AI 从技术到落地的关键转折点——未来五年 50 亿用户意味着巨大的应用和基础设施机会,做 AI 开发或企业决策的人值得关注 AMD 的端到端计算布局。原文
07:59Noam Shazeer@noamshazeer91°在 Google IO 大会上,Noam Shazeer 宣布推出 Gemini 3.5 Flash 模型,专为智能体和编程场景优化。该模型具备前沿性能,速度是其他前沿模型的 4 倍,即日起全球上线。这标志着 Google 在实时 AI 应用领域的重要进展,尤其适合需要快速响应的智能体工作流。AI模型Gemini 3.5 Flash智能体编程助手Google IO推理模型推荐理由:做智能体开发和编程的团队终于有了速度与性能兼得的选择——Gemini 3.5 Flash 比同类快 4 倍,值得立即上手测试。原文
07:59DeepLearning.AI@DeepLearningAIDeepLearningAI 在 X 平台发起一项投票,测试当前 AI 图像模型能否正确识别图片中的两种健身器材。该投票旨在引发对多模态推理模型能力的讨论,并推广其“AI Prompting for Everyone”课程。目前投票选项包括“能”、“不能”和“可能”,已有 682 次浏览和 5 次投票。这反映了业界对 AI 视觉理解真实世界物体能力的持续关注。AI模型多模态模型图像识别推理模型DeepLearningAIAI 投票推荐理由:想了解多模态模型在真实场景中的识别能力?这个投票让你快速感知 AI 的视觉推理边界,做 AI 应用开发的可以参与讨论并学习提示技巧。原文
07:59Ethan Mollick@emollick一年前,OpenAI曾宣称其未发布的通用模型在国际数学奥林匹克竞赛(IMO)中夺得金牌,但至今未公开该模型的具体名称或版本。这一神秘模型引发了外界对其能力的广泛猜测,尤其是它是否代表了OpenAI在推理和数学能力上的重大突破。如今,随着GPT-5.5 Pro Extended的推出,人们开始质疑新模型是否已追平或超越当年金牌模型的水平。该问题由学者Ethan Mollick在X上提出,再次引发对OpenAI模型演进和透明度讨论。AI模型OpenAI推理模型IMOGPT-5.5 Pro Extended模型能力10 个信源在谈推荐理由:OpenAI的IMO金牌模型至今未公开,这背后可能隐藏着模型能力的真实上限。关注推理模型和数学能力的开发者,值得思考GPT-5.5 Pro Extended是否已填补这一空白。原文
07:54OpenAI@OpenAI (@OpenAI)OpenAI在一条推文中指出,AI系统正变得能够进行长而困难的推理链,连接不同领域的想法,并发现研究者可能未探索的路径。他们认为这些能力将很快加速生物学、物理学、工程学和医学领域的工作。同时强调,人类的判断力仍然至关重要,专业知识将变得更有价值,AI负责搜索、建议和验证,而人类选择重要问题、解释结果并决定下一步方向。AI模型推理模型科研加速OpenAI人机协作AI能力10 个信源在谈推荐理由:科研人员和工程师将看到AI从工具变为协作伙伴——长链推理能力让AI能跨领域连接想法,做科研的团队值得关注这一趋势,思考如何将AI融入工作流。原文
07:51OpenAI@OpenAI (@OpenAI)精选76°OpenAI 宣布其通用推理模型成功证明了一个数学难题,该模型并非专门为数学问题设计,而是具备广泛推理能力。这一成果被视为数学和 AI 社区的重要里程碑,展示了通用 AI 在复杂推理任务上的潜力。该证明由通用模型完成,而非针对特定问题优化的系统,凸显了 AI 推理能力的泛化性。AI模型推理模型数学证明OpenAI通用AI里程碑10 个信源在谈推荐理由:通用推理模型攻克数学难题,证明了 AI 在数学推理上的泛化能力,数学研究者和 AI 开发者值得关注这一突破。原文
07:08Google Gemini App@GeminiApp精选Google 发布 Gemini 3.5 Flash,即日起全球用户可免费使用。用户只需在 gemini.google 或移动应用底部下拉菜单中选择“3.5 Flash”即可体验。该模型侧重高效推理与快速响应,面向免费层级开放。AI模型Gemini 3.5 FlashGoogle推理模型免费推荐理由:谷歌免费上架新模型,试试手速原文
15:12AI Will@FinanceYF5精选72°Google 提出 Nexus 框架,将时间序列预测从纯数值模式匹配转向事件驱动的推理问题。Nexus 通过多个智能体分别处理历史文本事件、宏观环境、局部冲击,并由合成器校准,让模型理解数字背后的原因。在 Zillow 房价测试中,基于 Claude 的版本相比直接思维链提示,平均绝对百分比误差(MAPE)降低 86.6%。虽然目前仅在有限数据集上验证,但方向明确:未来的预测不仅要外推曲线,还要解释曲线为何移动。论文时间序列预测智能体推理模型GoogleClaude推荐理由:做时间序列预测的团队终于有了一个能理解「为什么涨跌」的框架,Nexus 把事件和数字结合,效果显著。做量化、经济预测或房地产分析的建议点开论文看看。原文
13:40IT之家(博客/媒体)88°阿里千问今日正式发布 Qwen3.7-Max,定位为面向智能体时代的旗舰模型,即将通过阿里云百炼 API 提供服务。该模型在编程、办公自动化、长周期自主执行等智能体任务上表现突出,例如在长达 35 小时、超 1000 次工具调用的内核优化实验中保持连贯推理。在多项基准测试中,Qwen3.7-Max 在编程智能体(如 SWE-Pro 60.6)、通用智能体(如 MCP-Mark 60.8)和推理(如 GPQA Diamond 92.4)上均取得领先或与顶尖模型相当的成绩。此外,它支持跨框架部署,兼容 Claude Code、OpenClaw 等,并具备多语言理解与翻译能力。AI模型智能体编程助手MCP/工具推理模型Qwen3.7-Max7 个信源在谈推荐理由:Qwen3.7-Max 在长周期自主执行和跨框架兼容性上展现出实用价值,做自动化办公或复杂编程的开发者可以直接通过 API 体验,值得关注。原文
13:09berryxia@berryxia83°Google DeepMind 推出了 Gemini 3.5 Flash 模型,在 Intelligence Index 上获得 55 分,比上一代 Gemini 3 Flash 高 9 分,超越 Grok 4.3 和 Claude Sonnet 4.6。Agentic 任务 Elo 评分达 1656,幻觉率从 92% 降至 61%,多模态理解 MMMU-Pro 达 84%,输出速度超 280 tokens/s,比前代快 70%。但成本大幅上升,运行一次测试的成本是 Gemini 3 Flash 的 5.5 倍,定价为 $1.5/$9 per 1M input/output tokens,是前代的 3 倍。这标志着智能与速度的 Pareto 前沿被刷新,但“Flash”系列的性价比优势不再。AI模型Gemini 3.5 FlashGoogle DeepMind推理模型多模态成本分析推荐理由:Gemini 3.5 Flash 在智能和速度上实现了突破,做 AI 应用或 agent 开发的团队值得关注——性能提升显著,但预算敏感型项目需要重新评估成本。原文
10:55arXiv: DeepSeek@Yanhang Li, Zhichao Fan, Zexin Zhuang精选该研究审计了推理模型在遗忘后是否仍通过思维链泄露已遗忘内容。使用 DeepSeek-R1-Distill-Qwen-7B 和 LoRA 记忆虚构作者,通过 NPO 遗忘和六 token canary 头条件,发现思维链替换为短非 canary 前缀可显著降低答案率,而 bypass 间隙本身不能可靠指示权重级记忆。不同种子下结果不一致,甚至出现反转。推荐在标准审计外增加解码时模板替换作为廉价检查。论文推理模型遗忘审计思维链记忆残留DeepSeek-R1推荐理由:做模型遗忘审计的团队会发现,思维链泄露可能被误判为权重记忆,这篇论文提供了一个简单有效的 sanity check 方法,值得在评估流程中加上。原文
10:46arXiv: DeepSeek@Shuyu Wei, Jian Sun, Delai Qiu, Yining Wang, Shengping Liu, Jiaen Liang, Ying Fu, Wei Huang, Jitao Sang精选针对大语言模型推理中响应长度与准确率的权衡问题,研究者提出条件熵塑形(CES)框架。CES基于DAPO,利用token级熵作为不确定性信号,对正确推理路径的高熵“分叉点”进行惩罚以提升简洁性,对错误路径的高熵点给予奖励以鼓励探索。在DeepSeek-R1-Distill-7B上测试12个数学基准,CES在保持或提升准确率的同时显著缩短响应长度,在1.5B小模型和域外基准上也有类似效果。该方法为自适应推理提供了新思路,尤其适合需要高效准确推理的场景。论文推理模型熵塑形响应长度优化DeepSeek-R1-Distill-7B数学推理推荐理由:做LLM推理优化的团队终于有了一个能同时提升准确率和缩短响应长度的方案——CES框架在数学推理任务上效果显著,建议做模型推理效率的开发者点开看看具体实现。原文
10:42arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae精选72°本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。论文推理模型并行策略KV缓存MoE系统优化推荐理由:这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈,做 LLM 推理优化的工程师和架构师值得细读,能帮你避开常见的并行策略陷阱。原文
10:36arXiv cs.AI@Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima精选这篇综述系统梳理了大型语言模型在数学推理领域的最新进展,涵盖约120篇论文。文章提出了统一的数学数据集分类法,区分了预训练语料、监督微调资源和评估基准。它分析了推理架构和训练策略(如工具集成、验证器引导推理、参数高效微调)对鲁棒性和泛化能力的影响。比较评估揭示了最终答案准确率与过程级推理验证之间的差距。最后,论文指出了常见失败模式(如推理忠实性问题、基准偏差)和未来研究方向。论文推理模型数学推理综述/论文评估基准LLM推荐理由:做LLM推理研究或评估的团队,这篇综述帮你系统梳理了120篇论文的脉络,直接拿来当研究起点,省去大量文献筛选时间。原文
10:25arXiv cs.AI@Yannis Bendi-Ouis, Romain de Coudenhove, Xavier Hinaut精选CogScale 是一个包含 14 个可扩展合成任务的基准测试,旨在隔离和评估模型在不同参数规模下的认知与记忆能力。它提供了一个轻量级标准化框架,让研究者无需大规模训练即可快速验证架构创新。研究者在严格参数预算(1k、10k、100k)下评估了 GRU、LSTM、xLSTM、ESN、Mamba、Transformer 解码器和编码器-解码器七种架构。结果显示,经典 RNN 和回声状态网络在严格参数预算下擅长基础记忆,但只有注意力机制和现代状态空间模型在推理复杂度和任务难度提升时保持高性能。论文基准测试序列处理记忆能力推理模型CogScale推荐理由:序列模型研究者终于有了一个轻量级、可扩展的评估工具,CogScale 能帮你快速筛选架构创新,避免盲目大规模训练的高成本。做记忆与推理能力对比的团队可以直接用这个基准来验证新想法。原文
10:24arXiv cs.AI@Yuze Zhao, Junpeng Fang, Lu Yu, Zhenya Huang, Kai Zhang, Qing Cui, Qi Liu, Jun Zhou, Enhong Chen精选72°这篇论文通过控制预训练实验,重新审视了代码训练对语言模型推理能力的影响。研究发现,纯代码主要提升编程能力,而非通用推理能力,甚至与数学等知识密集型任务存在竞争关系。真正提升数学推理的是跨领域的结构化推理信号,如代码-文本和数学-文本混合数据。在固定数学预算下,增加结构化数学样本密度能显著提升复杂数学推理,同时保持编程性能。分析还显示,数据组成效应反映在专家激活模式中,为跨领域的竞争与协同提供了机制层面的证据。论文推理模型预训练数学推理代码训练数据策略推荐理由:这篇论文戳破了“代码训练提升通用推理”的迷思,做预训练数据策略的团队值得细看——它指明了如何通过结构化推理信号精准优化数学能力,而非盲目堆代码。原文
09:34rohanpaul_ai@rohanpaul_ai72°Google 发布了 Gemini 3.5 Flash 模型,在多项基准测试中超越了 Gemini 3.1 Pro,成为同级别中的最强模型。该模型具备智能体能力,每秒 token 处理速度提升 4 倍。AI/ML API 平台已集成该模型,并提供 24 小时免费使用。开发者可快速体验其强大性能。AI模型Gemini 3.5 Flash推理模型智能体API免费推荐理由:Gemini 3.5 Flash 以更小体量超越 Pro 级模型,做智能体或高吞吐应用的开发者值得立即体验,尤其是 API 限免窗口仅 24 小时。原文
09:08shao__meng@shao__meng76°Cerebras 宣布为 Moonshot AI 的 Kimi K2.6 模型(超 1T 参数)提供企业级高速推理服务,速度达到约 1000 tokens/s,成为 Artificial Analysis 评测中速度最快的前沿模型。此前 Kimi K2.5 和 K2.6 虽模型能力强,但官方推理速度慢,而 Groq 被 Nvidia 收购后未再跟进主流模型推理。Cerebras 继为 GPT 5.3 Codex Spark 提供高速推理后,再次解决大型模型的推理瓶颈,让开发者能更高效地使用该模型。AI产品Kimi K2.6Cerebras高速推理企业级推理模型3 个信源在谈推荐理由:Kimi K2.6 终于有了匹配其模型能力的高速推理平台,做推理密集型应用或需要实时响应的开发者可以直接用起来,体验 ~1000 tokens/s 的流畅感。原文
07:29Google DeepMind@GoogleDeepMind83°Google DeepMind 发布了 Gemini 3.5 Flash 模型,其性能在多项基准测试中与领先模型相当,但成本大幅降低。该模型具备强大的规划和推理能力,能处理大型代码库并部署子代理进行长期并行工作。在 Terminal-Bench 2.1、GDPval-AA 和 MCP Atlas 等编码和智能体基准测试中,它超越了上一代 Gemini 3.1 Pro。这标志着高性能 AI 推理和智能体应用的成本门槛被显著拉低。AI模型Gemini 3.5 Flash推理模型智能体编码成本优化推荐理由:Gemini 3.5 Flash 以极低价格提供了接近顶级模型的性能,做智能体开发或大规模代码分析的团队可以大幅降低推理成本,值得立即关注。原文
07:26orange.ai@oran_ge83°Google 昨晚发布 Gemini flash 3.5 模型,现已可用。该模型在多项指标上大幅超越 3.1 Pro,与 GPT 5.5 接近,且在 Agentic 和多模态能力上更优。价格仅为 GPT 5.5 的三分之一,缓存价格六分之一,API 定价 $1.50/$9.00 每百万 token。上下文窗口达 1M token,速度是其他旗舰模型的 4 倍,非常适合 Agent 场景。AI模型Geminiflash 3.5推理模型多模态Agent推荐理由:做 Agent 和多模态应用的开发者终于有了性价比更高的选择——Gemini flash 3.5 速度是旗舰模型的 4 倍,价格却只有 GPT 5.5 的三分之一,建议直接试 API。原文
06:53Jeff Dean@JeffDean83°Google 在 #GoogleIO 上发布了 Gemini 3.5 Flash 模型,主打快速与高能力的结合。该模型在几乎所有基准测试上优于 3.1 Pro,尤其在编程方面有巨大进步。其输出速度是其他前沿模型的 4 倍,智能与速度的平衡使其在同类模型中独树一帜。Gemini 3.5 Flash 即日起在 @antigravity 及 Google 产品和 API 中可用。AI模型Gemini 3.5 FlashGoogle推理模型编程助手速度推荐理由:对于需要快速响应的 AI 应用开发者来说,Gemini 3.5 Flash 在速度和能力上找到了新平衡点,编程任务尤其受益,建议立即试用。原文
06:44Patrick Loeber@patloeber83°Google 的 Gemini 3.5 Flash 模型现已正式可用(GA),在智能体和编程任务上达到前沿水平。该模型在复杂长周期任务中表现出色,并在多个挑战性基准测试中超越了上一代 3.1 Pro。同时,它保持了极快的推理速度,适合对延迟敏感的应用场景。开发者可以立即在 Google AI Studio 或 Vertex AI 上使用。AI模型Gemini 3.5 Flash智能体编程助手推理模型Google推荐理由:做智能体或编程自动化的开发者终于有了一个又快又强的模型——Gemini 3.5 Flash 在长任务和基准上超越 3.1 Pro,且已 GA 可直接用,建议立刻上手试试。原文
04:24Google AI Developers@googleaidevs88°谷歌宣布推出 Gemini 3.5 系列模型,这是其最新一代模型家族,将前沿智能与行动能力相结合。该系列为智能体模型设定了新标准,不仅能推理,还能执行任务。这意味着模型可以自主完成更多实际操作,而不仅仅是生成文本。对于开发者和企业用户来说,Gemini 3.5 有望在自动化、工作流执行等场景中发挥更大作用。AI模型Gemini 3.5智能体推理模型谷歌模型发布推荐理由:做智能体应用和自动化流程的开发者值得关注——Gemini 3.5 把推理和执行合二为一,能直接减少你写胶水代码的功夫。原文
02:43Jeff Dean@JeffDean91°Google 在 I/O 大会上发布 Gemini 3.5 系列,首推 3.5 Flash 模型。该模型专为复杂、长周期的智能体工作流设计,在 Terminal-Bench 和 MCP Atlas 等智能体与编程基准上超越 3.1 Pro,运行速度比其他前沿模型快 4 倍。在 Google Antigravity 中优化后,速度可提升至 12 倍。它可作为子智能体协作、高频迭代循环的强大引擎,用于大规模解决实际问题。AI模型Gemini 3.5 Flash智能体编程助手Google I/O推理模型推荐理由:做复杂智能体编排和编程自动化的开发者,终于有了一个又快又强的模型引擎——Gemini 3.5 Flash 在基准上超越前代,速度还快 4 倍,值得立刻上手试。原文