论文76°

Google LEAP:让通用LLM形式数学证明成功率从10%飙升至70%

源:https://t.co/MfdIsDX4dT

精选理由

做 AI 推理、数学证明或形式化验证的团队会发现,LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题,值得直接看论文复现思路。

AI 摘要

Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》,提出一种智能体框架,让通用大语言模型(非专用数学模型)在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明,在复杂问题上几乎失败(成功率低于10%)。LEAP 将证明过程分解为图结构的目标与子目标,允许模型规划步骤、重用已证明引理,并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上,LEAP 全部解出;在基于 IMO 风格的 60 道题基准上,通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足,而是缺乏与验证器的结构化交互方式。

AI 翻译 · 中文

Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》,提出一种智能体框架,让通用大语言模型(非专用数学模型)在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明,在复杂问题上几乎失败(成功率低于10%)。LEAP 将证明过程分解为图结构的目标与子目标,允许模型规划步骤、重用已证明引理,并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上,LEAP 全部解出;在基于 IMO 风格的 60 道题基准上,通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足,而是缺乏与验证器的结构化交互方式。

AI Will源: x.com/rohanpaul_ai/s… Rohan Paul @rohanpaul_ai Another great paper from Google. Shows general LLMs can solve formal math by planning proofs and checking each step. Raised general LLM performance from under 10% to 70%.