全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

16:38

16:38

AI Will@FinanceYF5

72°

Google 提出 LEAP 框架，通过将数学问题拆解为目标树，并利用 Lean 验证器的反馈进行迭代学习，显著提升了大语言模型在数学竞赛中的表现。在 Putnam 2025 测试中，模型解出了全部 12 题，正确率从 10% 提升至 70%，在 IMO 风格基准上甚至超过了专用金牌级系统 48%。该框架不改变模型本身，仅通过结构优化释放了推理潜力，为 AI 数学推理提供了新思路。

论文 LEAP框架数学推理 Lean验证器目标树 Google

推荐理由：数学竞赛和形式化验证的开发者可以关注——LEAP 用结构优化而非模型升级就实现了 7 倍正确率提升，值得在类似推理任务中尝试。

16:36

16:36

AI Will@FinanceYF5

76°

Google 发布新论文《LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks》，提出一种智能体框架，让通用大语言模型（非专用数学模型）在形式数学证明任务中表现大幅提升。传统方法要求模型一次性写出完整形式证明，在复杂问题上几乎失败（成功率低于10%）。LEAP 将证明过程分解为图结构的目标与子目标，允许模型规划步骤、重用已证明引理，并与 Lean 验证器交互获取反馈。在 Putnam 2025 的 12 道题上，LEAP 全部解出；在基于 IMO 风格的 60 道题基准上，通用 LLM 成功率从不足 10% 提升至 70%。这表明模型在形式数学上的弱点并非能力不足，而是缺乏与验证器的结构化交互方式。

论文形式数学 LEAP Lean验证器智能体框架推理模型

推荐理由：做 AI 推理、数学证明或形式化验证的团队会发现，LEAP 把通用 LLM 的数学能力拉高了一个量级——不用专用模型也能解 IMO 级难题，值得直接看论文复现思路。