13:07Aran Komatsuzaki (论文推介)@arankomatsuzaki精选73°一位研究者分享了使用 Codex 处理开放数学/物理问题的经验,发现并行智能体在需要大量顺序推理的问题上效果有限。真正的超人类能力体现在速度、知识量和可复制性上,而非瞬间解决难题。前沿物理问题比老旧的数学问题更容易被智能体处理,但研究品味仍是瓶颈。智能体擅长在给定方向后推进,但选择问题和判断方向仍需人类。AI产品Codex科研自动化智能体数学推理物理研究推荐理由:做科研自动化的开发者会看到智能体在数学/物理问题上的真实表现——不是万能 oracle,而是高效的科研劳动力,值得了解其能力边界。原文
08:27rohanpaul_ai@rohanpaul_aiAnthropic 表示其 80% 的新生产代码由 Claude 编写,标志着 AI 编程在大型科技公司中的深度应用。Google 新论文显示通用 LLM 通过规划证明和逐步检查,在形式数学任务上从低于 10% 提升至 70% 的准确率。Google 开源 Gemma 4 12B 模型,支持音频和视频分析,可在消费级 16GB GPU 上完全本地运行。阿里巴巴发布 Qwen3.7-Plus,支持文本、视频和图像输入,价格低廉但保持闭源。Anthropic 的化学报告也展示了令人惊讶的结果。行业AnthropicClaudeGoogleGemma 4Qwen3.7-PlusAI编程数学推理开源模型10 个信源在谈推荐理由:AI 编程和数学推理的突破正在改变开发和研究方式,做 AI 应用或数学研究的团队值得关注这些进展,尤其是 Claude 的代码生成和 Gemma 4 的本地部署能力。原文
16:38AI Will@FinanceYF572°Google 提出 LEAP 框架,通过将数学问题拆解为目标树,并利用 Lean 验证器的反馈进行迭代学习,显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中,模型解出了全部 12 题,正确率从 10% 提升至 70%,在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身,仅通过结构优化释放了推理潜力,为 AI 数学推理提供了新思路。论文LEAP框架数学推理Lean验证器目标树Google推荐理由:数学竞赛和形式化验证的开发者可以关注——LEAP 用结构优化而非模型升级就实现了 7 倍正确率提升,值得在类似推理任务中尝试。原文
23:54elvis@omarsar076°Google 发布新研究 LEAP(Lean-Enhanced Agentic Programming),通过将通用大语言模型封装在智能体框架中,每一步都基于 Lean 编译器进行验证,并迭代利用验证器反馈。该框架使同一个通用模型解决了全部 12 道 Putnam 2025 数学竞赛题,并将 Lean-IMO-Bench 的一次性求解率从不到 10% 提升至 70%,超越了得分为 48% 的专用金牌系统。这项研究展示了定制智能体框架在数学推理任务上的巨大潜力,论文已发布在 arXiv 上。论文智能体数学推理LeanGoogleLEAP推荐理由:做数学推理或智能体开发的团队值得关注——LEAP 用通用模型+验证反馈循环就超越了专用系统,说明智能体框架设计比模型本身更关键,建议点开论文看具体架构。原文
10:28AI Will@FinanceYF583°Google DeepMind发布AlphaProof Nexus论文,展示了一个AI agent在353个开放数学问题中自主解决了9个Erdős难题,其中包括两个56年未解的问题,并证明了44个OEIS猜想。每道题的推理成本仅数百美元,标志着AI在数学推理领域取得了重大突破。这项工作展示了AI agent在解决长期悬而未决的数学难题方面的潜力,为数学研究提供了新的工具和方法。AI模型数学推理AI agentDeepMindErdős难题OEIS猜想推荐理由:数学研究者和AI爱好者值得关注:AlphaProof Nexus以极低成本自主攻克了56年未解的难题,展示了AI在数学推理上的新高度,建议点开了解具体方法和成果。原文
04:04Gary Marcus@GaryMarcus精选76°DeepMind团队使用神经符号方法(neurosymbolic)成功解决了9个开放的Erdos问题,工作比OpenAI更细致、定量化。该方法结合了LLM和Lean证明助手,实现自主推理,仅在形式验证通过后才进行人工审核。Gary Marcus评论称,OpenAI可能因知道DeepMind即将发布而仓促推出自己的方案。这一进展展示了神经符号方法在数学推理中的潜力,也引发了关于研究竞争和严谨性的讨论。AI模型神经符号DeepMindErdos问题Lean证明助手数学推理5 个信源在谈推荐理由:DeepMind用神经符号方法严谨解决数学难题,做AI推理或形式验证的开发者值得关注——这比纯LLM方案更可靠,也暗示了未来研究的方向。原文
13:04Gary Marcus@GaryMarcus70°普林斯顿大学一位年轻教授在OpenAI发起的Erdos游戏挑战中,仅用3天就超越了OpenAI的表现。该游戏测试AI在数学推理上的能力,涉及Erdos数等概念。这位教授的方法基于arxiv.org/abs/2605.20579论文,展示了更高效的推理策略。论文推理模型大模型OpenAIErdos游戏数学推理4 个信源在谈推荐理由:普林斯顿教授3天反超OpenAI原文
06:43rohanpaul_ai@rohanpaul_ai76°Google DeepMind 发表新论文,展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索,但仅限于精心约束的世界。该系统使用 Lean 证明检查器,让 LLM 不断编辑形式化证明、读取编译器错误并重试,同时维护共享的局部证明池来指导搜索。在测试中,该系统解决了 9 个 Erdős 问题和 44 个序列猜想,并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性,揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主,而是建立了人机协作的新分工:人类选择问题,模型提出路径,证明助手严格验证。论文形式化证明LeanAlphaProof Nexus数学推理AI 验证推荐理由:这篇论文展示了 AI 在数学证明中的实际进展,做形式化验证或数学研究的团队值得关注——它把 LLM 从“讲故事”变成“可验证的候选生成器”,直接解决了幻觉问题。原文
15:16小互@imxiaohu精选网易有道今日开源 Confucius4 双模型,分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模,有道更注重工程精度和落地成本。开源直接提供完整权重,而非仅开放 API,降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题,语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。AI模型开源/仓库多模态语音克隆数学推理Confucius4推荐理由:做教育 AI 或语音应用的开发者可以直接拿到完整权重,省去从零训练的成本,建议试试这两个模型的实际效果。原文
08:05The Rundown AI@therundownaiOpenAI 在数学领域取得突破,破解了一个困扰学界 80 年的数学猜想,展示了 AI 在基础科学推理上的潜力。Google 的 AI Co-Scientist 系统开始进入实验室实际应用,辅助科学家进行实验设计。此外,Anthropic 推出 Claude 上下文审计功能,帮助用户了解 AI 如何理解自己的工作。Emergence 公司发起五镇 AI 对齐挑战赛,探索多智能体协作中的价值观对齐问题。本周还有 4 款新 AI 工具和社区工作流发布,值得关注。行业OpenAIGoogleAI Co-Scientist数学推理AI对齐10 个信源在谈推荐理由:数学和科学研究者会看到 AI 如何从工具变成合作者——OpenAI 的突破和 Google 的实验室应用都指向同一个方向:AI 正在改变科研范式,做基础研究的团队值得跟进。原文
08:05rohanpaul_ai@rohanpaul_ai83°一项实验表明,通用型大语言模型(LLM)在获得足够测试时计算资源后,能够产生前沿数学研究。具体而言,一个普通的OpenAI模型成功将代数数论与平面几何联系起来,并利用这一桥梁击败了一个存在数十年的猜想。这揭示了前沿模型可能已经包含有用的潜在数学能力,而瓶颈部分在于允许它们思考的时间和方式。该发现对AI在科研领域的应用具有重要意义,表明通过延长推理时间,通用模型也能突破传统局限。论文LLM数学推理前沿研究测试时计算OpenAI7 个信源在谈推荐理由:这项发现打破了“只有专用模型才能做前沿研究”的认知,做AI科研或数学研究的团队值得关注——它意味着你的通用模型可能比想象中更聪明,只是需要给它更多思考时间。原文
14:34AI Will@FinanceYF591°OpenAI 的 AI 模型首次自主解决了数学领域一个长达 80 年的开放问题——Erdős 1946 年提出的“平面单位距离问题”。此前学界普遍认为最优解类似网格结构,但 AI 发现了更优的新构造。这是 AI 首次在没有人类引导的情况下独立攻克数学核心开放问题,标志着 AI 在数学研究中的历史性突破。该成果展示了 AI 在复杂数学推理和模式发现方面的潜力,可能改变未来数学研究的方式。AI模型OpenAI数学推理平面单位距离问题AI 突破自主发现10 个信源在谈推荐理由:数学研究者和 AI 爱好者会震惊——AI 首次独立解决了一个困扰人类 80 年的数学难题,这意味着 AI 不再是辅助工具,而是能自主发现新知识的伙伴。建议点开看看,见证历史。原文
08:01Gary Marcus@GaryMarcusGary Marcus 在 X 上发问,质疑一项新的数学成果究竟是结合了 Lean 等工具的神经符号方法,还是纯大语言模型(LLM)的产物。该推文引发讨论,目前有 16 条回复、3 次转发和 30 个赞,浏览量超过 6200。Marcus 的提问反映了 AI 领域对数学推理中符号系统与纯 LLM 方法优劣的持续关注。行业Gary Marcus神经符号LeanLLM数学推理推荐理由:Marcus 的质疑切中 AI 数学推理的核心争议——符号系统 vs 纯 LLM,关注 AI 推理能力的读者值得一看,能帮你理解当前研究的分歧点。原文
07:59Kevin Weil@kevinweil菲尔兹奖得主 Timothy Gowers 在 X 上预告 AI 在数学领域取得重大突破,称数学家可能需要坐下阅读。这延续了 AI 在数学推理上的系列首次突破,暗示 AI 可能已解决重要数学问题或提出新证明。Gowers 的参与增加了事件可信度,引发学界广泛关注。具体细节待进一步披露。AI模型AI 数学Timothy Gowers数学推理AI 突破菲尔兹奖推荐理由:菲尔兹奖得主亲自预告 AI 数学突破,做数学研究或关注 AI 推理能力的读者值得关注后续细节。原文
07:59Ethan Mollick@emollick72°2024年6月,通用大模型连草莓里有多少个r都数不清;2025年7月,最新模型已在国际数学奥林匹克竞赛中获得金牌;到2026年5月,模型甚至解决了组合几何中一个著名难题。这一系列对比展示了LLM在数学推理能力上的飞速进步,从基础计数到顶尖竞赛再到前沿研究,仅用两年时间。AI模型LLM数学推理IMO金牌组合几何能力进化推荐理由:数学推理是AI能力的硬指标,从数不清草莓到IMO金牌再到解决几何难题,这个时间线让所有关注AI能力边界的开发者震撼——建议点开看看,你会对模型进化速度有全新认知。原文
07:48Greg Brockman@gdb91°OpenAI的一个模型在数学领域取得重大突破,自主推翻了一个自1946年由Paul Erdős提出的离散几何核心猜想——平面单位距离问题。近80年来,数学家们一直认为最优解近似于方形网格,但该模型发现了一类全新的、表现更优的构造。这是AI首次自主解决一个数学领域的著名开放问题,标志着AI在数学研究中的里程碑式进展。论文OpenAI数学推理离散几何开放问题AI突破7 个信源在谈推荐理由:数学家和AI研究者会震惊——AI第一次独立解决了困扰人类80年的核心猜想,这不仅是数学的突破,更是AI推理能力的质变,值得所有关注AI前沿的人点开。原文
07:43Sam Altman@sama83°OpenAI CEO Sam Altman在X上宣布,一个通用模型成功解决了一个数学领域的重大开放问题,他认为这是AI发展的重要里程碑。Altman表示,虽然他对AI扩展人类对世界的理解感到兴奋,但今天心情复杂。菲尔兹奖得主Timothy Gowers提醒数学家们坐稳再看详情。这一事件标志着通用AI在数学推理上取得突破性进展。AI模型通用模型数学推理重大突破Sam AltmanTimothy Gowers10 个信源在谈推荐理由:数学家和AI研究者都会震惊——通用模型攻克了人类长期未解的数学难题,这不仅是技术突破,更可能改变数学研究范式。建议点开看看具体是哪个问题被解决。原文