13:18Y Combinator@ycombinatorYC Paper Club 最新一期中,研究者介绍了自博弈方法 Scaling Self-Play with Self-Guidance,以及蛋白质生物学世界模型 A World Model of Protein Biology。还讨论了 Stream RAG 实现流式工具使用的口语对话系统,以及 Lean 形式验证在智能验证新时代的应用。此外,展示了 AI 辅助编程在生产中的实践。论文自博弈AI生物学形式验证Stream RAGLean推荐理由:YC 研究者分享自博弈和AI生物学新进展原文
23:54elvis@omarsar076°Google 发布新研究 LEAP(Lean-Enhanced Agentic Programming),通过将通用大语言模型封装在智能体框架中,每一步都基于 Lean 编译器进行验证,并迭代利用验证器反馈。该框架使同一个通用模型解决了全部 12 道 Putnam 2025 数学竞赛题,并将 Lean-IMO-Bench 的一次性求解率从不到 10% 提升至 70%,超越了得分为 48% 的专用金牌系统。这项研究展示了定制智能体框架在数学推理任务上的巨大潜力,论文已发布在 arXiv 上。论文智能体数学推理LeanGoogleLEAP推荐理由:做数学推理或智能体开发的团队值得关注——LEAP 用通用模型+验证反馈循环就超越了专用系统,说明智能体框架设计比模型本身更关键,建议点开论文看具体架构。原文
02:47rohanpaul_ai@rohanpaul_ai76°著名数学家陶哲轩在播客中表示,AI 工具正在彻底改变数学研究的方式。过去需要多年教育才能达到数学研究前沿,现在高中生借助 AI 工具和 Lean 等辅助系统,也能参与数学项目并做出实际贡献。这标志着数学研究门槛的显著降低,以及 AI 对学术领域加速作用的又一例证。AI产品AI 工具数学研究Lean教育陶哲轩推荐理由:数学研究者、教育工作者和 AI 爱好者值得一看——陶哲轩的观察揭示了 AI 如何打破学术壁垒,让数学研究更开放、更高效。原文
06:43rohanpaul_ai@rohanpaul_ai76°Google DeepMind 发表新论文,展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索,但仅限于精心约束的世界。该系统使用 Lean 证明检查器,让 LLM 不断编辑形式化证明、读取编译器错误并重试,同时维护共享的局部证明池来指导搜索。在测试中,该系统解决了 9 个 Erdős 问题和 44 个序列猜想,并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性,揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主,而是建立了人机协作的新分工:人类选择问题,模型提出路径,证明助手严格验证。论文形式化证明LeanAlphaProof Nexus数学推理AI 验证推荐理由:这篇论文展示了 AI 在数学证明中的实际进展,做形式化验证或数学研究的团队值得关注——它把 LLM 从“讲故事”变成“可验证的候选生成器”,直接解决了幻觉问题。原文
08:01Gary Marcus@GaryMarcusGary Marcus 在 X 上发问,质疑一项新的数学成果究竟是结合了 Lean 等工具的神经符号方法,还是纯大语言模型(LLM)的产物。该推文引发讨论,目前有 16 条回复、3 次转发和 30 个赞,浏览量超过 6200。Marcus 的提问反映了 AI 领域对数学推理中符号系统与纯 LLM 方法优劣的持续关注。行业Gary Marcus神经符号LeanLLM数学推理推荐理由:Marcus 的质疑切中 AI 数学推理的核心争议——符号系统 vs 纯 LLM,关注 AI 推理能力的读者值得一看,能帮你理解当前研究的分歧点。原文