论文72°

Google LEAP框架:LLM解数学竞赛题正确率从10%跃至70%

Google新论文:让LLM解数学竞赛题,正确率从10%跳到70%。 【LEAP框架】不让模型一次写完整证明,而是把问题拆成目标树,边做边从Lean验证器的反馈里学,复用已证过的引理。 结果:Pu...

精选理由

数学竞赛和形式化验证的开发者可以关注——LEAP 用结构优化而非模型升级就实现了 7 倍正确率提升,值得在类似推理任务中尝试。

AI 摘要

Google 提出 LEAP 框架,通过将数学问题拆解为目标树,并利用 Lean 验证器的反馈进行迭代学习,显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中,模型解出了全部 12 题,正确率从 10% 提升至 70%,在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身,仅通过结构优化释放了推理潜力,为 AI 数学推理提供了新思路。

AI 翻译 · 中文

Google 提出 LEAP 框架,通过将数学问题拆解为目标树,并利用 Lean 验证器的反馈进行迭代学习,显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中,模型解出了全部 12 题,正确率从 10% 提升至 70%,在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身,仅通过结构优化释放了推理潜力,为 AI 数学推理提供了新思路。

AI WillGoogle新论文:让LLM解数学竞赛题,正确率从10%跳到70%。 【LEAP框架】不让模型一次写完整证明,而是把问题拆成目标树,边做边从Lean验证器的反馈里学,复用已证过的引理。 结果:Putnam 2025全部12题解出,IMO风格基准超过专用金牌级系统的48%。 模型能力没变,结构变了,上限就变了。 💬 1 🔄 0 ❤️ 5 👀 582 📊 2 ⚡ Powered by xgo.ing