16:38AI Will@FinanceYF572°Google 提出 LEAP 框架,通过将数学问题拆解为目标树,并利用 Lean 验证器的反馈进行迭代学习,显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中,模型解出了全部 12 题,正确率从 10% 提升至 70%,在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身,仅通过结构优化释放了推理潜力,为 AI 数学推理提供了新思路。论文LEAP框架数学推理Lean验证器目标树Google推荐理由:数学竞赛和形式化验证的开发者可以关注——LEAP 用结构优化而非模型升级就实现了 7 倍正确率提升,值得在类似推理任务中尝试。原文
16:36AI Will@FinanceYF576°Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》,提出一种智能体框架,让通用大语言模型(非专用数学模型)在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明,在复杂问题上几乎失败(成功率低于10%)。LEAP 将证明过程分解为图结构的目标与子目标,允许模型规划步骤、重用已证明引理,并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上,LEAP 全部解出;在基于 IMO 风格的 60 道题基准上,通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足,而是缺乏与验证器的结构化交互方式。论文形式数学LEAPLean验证器智能体框架推理模型推荐理由:做 AI 推理、数学证明或形式化验证的团队会发现,LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题,值得直接看论文复现思路。原文