全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

16:37

16:37

AI Will@FinanceYF5

LEAP是一个新型智能体框架，旨在提升大型语言模型在形式数学领域的应用能力。该框架通过多智能体协作和结构化推理，解决了LLM在数学证明和定理推导中的准确性和可解释性问题。实验表明，LEAP在多个形式数学基准上显著优于现有方法，为AI辅助数学研究提供了新思路。这项工作对推动AI在科学计算和数学教育中的应用具有重要价值。

论文智能体形式数学推理模型 LLM LEAP

推荐理由：做数学研究或AI辅助证明的开发者，LEAP框架让LLM在形式数学上更可靠，值得一试。

16:36

16:36

AI Will@FinanceYF5

76°

Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》，提出一种智能体框架，让通用大语言模型（非专用数学模型）在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明，在复杂问题上几乎失败（成功率低于10%）。LEAP 将证明过程分解为图结构的目标与子目标，允许模型规划步骤、重用已证明引理，并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上，LEAP 全部解出；在基于 IMO 风格的 60 道题基准上，通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足，而是缺乏与验证器的结构化交互方式。

论文形式数学 LEAP Lean验证器智能体框架推理模型

推荐理由：做 AI 推理、数学证明或形式化验证的团队会发现，LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题，值得直接看论文复现思路。

06:26

06:26

rohanpaul_ai@rohanpaul_ai

76°

Google 发布新论文 LEAP，提出一种智能体框架，让通用大语言模型（LLM）能够通过规划证明步骤、分解子目标、重用已有引理并与形式验证器 Lean 交互，显著提升形式数学证明能力。在 Putnam 2025 和 IMO 风格基准测试中，LEAP 将通用 LLM 的成功率从不足 10% 提升至 70%，并解决了所有 12 道 Putnam 2025 问题。该研究揭示了通用 LLM 在形式数学中的弱点并非数学能力不足，而是缺乏与验证器的结构化交互。LEAP 将证明存储为有向图，支持子目标复用，避免一次性生成庞大证明的失败模式。

论文 Google LEAP 形式数学智能体推理模型

推荐理由：这项研究解决了通用 LLM 在形式数学中「一次性写完整证明」的致命短板，做 AI 推理、数学辅助工具或形式验证的开发者值得关注——LEAP 的智能体框架思路可能启发更多复杂推理场景的改进。