论文76°

Google LEAP:通用LLM形式数学证明成功率从10%提升至70%

Another great paper from Google. Shows general L…

精选理由

这项研究解决了通用 LLM 在形式数学中「一次性写完整证明」的致命短板,做 AI 推理、数学辅助工具或形式验证的开发者值得关注——LEAP 的智能体框架思路可能启发更多复杂推理场景的改进。

AI 摘要

Google 发布新论文 LEAP,提出一种智能体框架,让通用大语言模型(LLM)能够通过规划证明步骤、分解子目标、重用已有引理并与形式验证器 Lean 交互,显著提升形式数学证明能力。在 Putnam 2025 和 IMO 风格基准测试中,LEAP 将通用 LLM 的成功率从不足 10% 提升至 70%,并解决了所有 12 道 Putnam 2025 问题。该研究揭示了通用 LLM 在形式数学中的弱点并非数学能力不足,而是缺乏与验证器的结构化交互。LEAP 将证明存储为有向图,支持子目标复用,避免一次性生成庞大证明的失败模式。

AI 翻译 · 中文

Google 发布新论文 LEAP,提出一种智能体框架,让通用大语言模型(LLM)能够通过规划证明步骤、分解子目标、重用已有引理并与形式验证器 Lean 交互,显著提升形式数学证明能力。在 Putnam 2025 和 IMO 风格基准测试中,LEAP 将通用 LLM 的成功率从不足 10% 提升至 70%,并解决了所有 12 道 Putnam 2025 问题。该研究揭示了通用 LLM 在形式数学中的弱点并非数学能力不足,而是缺乏与验证器的结构化交互。LEAP 将证明存储为有向图,支持子目标复用,避免一次性生成庞大证明的失败模式。

rohanpaul_aiAnother great paper from Google. Shows general LLMs can solve formal math by planning proofs and checking each step. Raised general LLM performance from under 10% to 70%. A general LLM failed badly when asked to write f