Google LEAP：让通用LLM形式数学证明成功率从10%飙升至70%

精选理由

做 AI 推理、数学证明或形式化验证的团队会发现，LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题，值得直接看论文复现思路。

AI 摘要

Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》，提出一种智能体框架，让通用大语言模型（非专用数学模型）在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明，在复杂问题上几乎失败（成功率低于10%）。LEAP 将证明过程分解为图结构的目标与子目标，允许模型规划步骤、重用已证明引理，并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上，LEAP 全部解出；在基于 IMO 风格的 60 道题基准上，通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足，而是缺乏与验证器的结构化交互方式。

AI 翻译 · 中文

AI Will源： x.com/rohanpaul_ai/s… Rohan Paul @rohanpaul_ai Another great paper from Google. Shows general LLMs can solve formal math by planning proofs and checking each step. Raised general LLM performance from under 10% to 70%.…

查看原推