12:58IT之家(博客/媒体)83°谷歌 DeepMind 推出 AlphaProof Nexus,结合大语言模型与 Lean 形式化验证,在 353 个开放的 Erdős 问题中自主解决 9 个,包括 2 个悬而未决 56 年的问题。该系统由 4 个复杂度递增的 AI 智能体组成,每个问题推理成本仅数百美元。研究还发现,最简单的 Agent A 也能证明这些难题,反映出底层模型能力提升和编译器反馈的锚定作用。这标志着 AI 在数学研究领域取得重大突破,能自主发现并证明长期未解猜想。AI模型谷歌 DeepMindAlphaProof Nexus数学证明形式化验证Erdős 问题推荐理由:数学研究者和 AI 爱好者会兴奋——AlphaProof Nexus 用数百美元成本就解决了人类 56 年未解的难题,证明 AI 已能自主推进数学前沿,值得点开看看具体怎么做到的。原文
19:02Decoder@Matthias Bastian83°Google DeepMind 的 AlphaProof Nexus 系统自主解决了九个开放的 Erdős 问题,其中两个困扰数学家长达56年,每个问题的推理成本仅需数百美元。与 OpenAI 的自然语言方法不同,该系统使用 Lean 编译器自动验证每一步证明,确保结果严谨可靠。不过,整体成功率仅为2.5%,表明 AI 在数学推理领域仍有巨大提升空间。这一成果展示了 AI 在解决高难度数学问题上的潜力,可能加速数学研究进程。AI模型AlphaProof Nexus数学推理Lean编译器Erdős问题DeepMind7 个信源在谈推荐理由:数学研究者和 AI 推理方向开发者值得关注——AlphaProof Nexus 用极低成本攻克了人类多年未解的难题,虽然成功率低,但证明了形式化验证路径的可行性,建议点开了解其技术细节。原文
06:43rohanpaul_ai@rohanpaul_ai76°Google DeepMind 发表新论文,展示 AI 系统 AlphaProof Nexus 能在形式化数学证明中进行搜索,但仅限于精心约束的世界。该系统使用 Lean 证明检查器,让 LLM 不断编辑形式化证明、读取编译器错误并重试,同时维护共享的局部证明池来指导搜索。在测试中,该系统解决了 9 个 Erdős 问题和 44 个序列猜想,并协助优化、图论、代数几何和量子光学领域的问题。失败案例同样有启示性,揭示了 LLM 在数学推理中隐藏错误的方式。该工作并非实现完全数学自主,而是建立了人机协作的新分工:人类选择问题,模型提出路径,证明助手严格验证。论文形式化证明LeanAlphaProof Nexus数学推理AI 验证推荐理由:这篇论文展示了 AI 在数学证明中的实际进展,做形式化验证或数学研究的团队值得关注——它把 LLM 从“讲故事”变成“可验证的候选生成器”,直接解决了幻觉问题。原文