AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:定理证明×
6月19日
09:38
09:38arXiv: DeepSeek@Minsu Kim, Se-Young Yun
研究者提出利用Lean证明助手作为符号过程预言机,在训练中提供细粒度的策略级验证反馈,弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列,Lean能标记局部正确步骤及最早失败步骤,从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明,策略级监督在多数设置下优于仅结果监督的基线,在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器,还能在训练中充当过程级奖励预言机。
AI模型Lean定理证明强化学习形式验证推理模型

推荐理由:这篇论文用Lean在定理证明训练中引入细粒度过程奖励,比只判对错的强化学习效果好,在MiniF2F和ProofNet上都有提升。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月9日
11:52
11:52arXiv cs.AI@Wesley Pegden
精选
Trellis 是一个自动形式化系统,利用 LLM 智能体在确定性约束的工作流中,通过迭代优化自然语言证明,逐步推进 Lean 自动形式化任务。该系统受数学家对“严谨证明”的直觉启发——即证明的任何部分都可以被进一步详细阐述。Trellis 在有限预算下使用通用智能体实现了可靠的自动形式化,其专业化来自“严谨性”含义驱动的工作流,而非特定任务训练。论文还展示了该系统生成的 Ramsey 理论最新突破的端到端 Lean 形式化证明。
论文自动形式化LeanLLM智能体定理证明工作流

推荐理由:Trellis 解决了自动形式化中可靠性与成本之间的平衡问题,做定理证明或形式化验证的开发者可以直接用这个工作流来生成 Lean 证明,值得关注其开源实现。
原文
6月5日
12:07
12:07arXiv cs.AI@Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin, Rohit Agarwal, Simon Park, Rodrigo Porto, Narutatsu Ri, Ziran Yang, Shange Tang, Xingyu Dang, Hongzhou Lin, Mengdi Wang, Danqi Chen, Chi Jin, Liam H Fowl, Sanjeev Arora
精选83°
Goedel-Architect 是一个基于 Lean 4 的智能体框架,通过生成和精炼“蓝图”(定义和引理的依赖图)来简化形式化定理证明。它先根据自然语言证明生成蓝图,然后并行证明每个引理节点,失败节点会驱动全局蓝图精炼,避免了传统递归分解的低效循环。使用开源模型 DeepSeek-V4-Flash 作为骨干,在 MiniF2F-test 上达到 99.2% pass@1,在 PutnamBench 上达到 75.6% pass@1。结合自然语言证明引导,可解决更难的题目,如 IMO 2025 的 4/6 和 Putnam 2025 的 11/12。该框架在开源管道中实现了最先进性能,且成本比同类开源方案低 500 倍。
论文定理证明Lean 4蓝图生成智能体框架DeepSeek

推荐理由:形式化定理证明一直门槛高、成本高,Goedel-Architect 用蓝图+精炼策略大幅提升效率,做数学证明或形式化验证的团队值得关注,开源且成本极低。
原文
5月20日
15:41
15:41arXiv cs.AI@Gabriel Rongyang Lau
精选
本文报告了使用Aristotle API对IMO 2009第6题(Grasshopper问题)进行Lean 4形式化证明的案例。生成的代码包含一个广义定理的Lean版本、四个已验证的辅助引理,但主定理的证明中有一个未解决的“sorry”占位符。已验证的部分建立了局部数学性质,但全局组合计数步骤未被自动化证明覆盖。该案例揭示了AI辅助形式化的核心局限:局部证明搜索可以成功,但全局推理仍需人工介入。论文提供了可复现的Lean代码,并分析了已验证与未验证的证明内容。
论文定理证明Lean 4Aristotle API形式化验证IMO问题

推荐理由:这个案例对做AI辅助形式化验证的团队很有参考价值——它清晰展示了当前AI在局部引理证明上的能力,以及全局推理的瓶颈,做Lean或定理证明器开发的值得点开看看。
原文
5月19日
09:57
09:57arXiv cs.AI@Wentao Long, Yunfei Zhang, Chenyi Li, Li Zhou, Chumin Sun, Zaiwen Wen
精选
CAM-Bench是一个新的Lean 4定理证明基准,包含1000个计算与应用数学领域的证明目标,涵盖优化、数值线性代数和数值分析。这些题目改编自教科书习题,依赖局部定义、符号和算法。研究者开发了依赖恢复管道,将每个问题标准化为独立定理并翻译成Lean目标。该基准填补了现有形式化数学基准(如IMO风格问题)的空白,聚焦于应用数学中依赖教科书概念和初等定理的题目。评估显示,现有大模型和形式化代理在跟踪局部假设、应用初等结果、分解证明和长期控制方面存在常见失败模式。
论文定理证明Lean 4基准测试应用数学形式化验证

推荐理由:做形式化验证或AI数学推理的团队终于有了应用数学方向的专用基准,比纯代数题更贴近实际工程场景,建议关注其失败模式分析来改进模型。
原文
5月12日
19:11
19:11arXiv: DeepSeek@Zeynel A. Uluşan, Burak S. Akbudak, Can S. Erer, Gözde Gül Şahin
近期神经定理证明器使用基于可验证奖励的强化学习(RLVR),但面临稀疏奖励问题:困难问题中部分进展无法获得信号。为此,研究者提出学习奖励模型以评估证明质量,但比较不同奖励模型通常需要昂贵的RL训练消融实验。FormalRewardBench是首个专门评估Lean 4形式化定理证明中奖励模型的基准,包含250个偏好对,每个正确证明通过5种专家设计的错误注入策略生成错误变体。评估包括前沿LLM(如Claude Opus 4.5)、判别型LLM(如CompassJudger-1-14B)、通用LLM(如Qwen2.5-72B-Instruct)以及专用定理证明模型(如DeepSeek-Prover-V2-7B)。结果显示前沿LLM表现最佳(59.8%),而专用定理证明器表现最差(24.4%),表明定理证明能力并未迁移到证明评估任务。
论文定理证明奖励模型Lean 4基准测试强化学习

推荐理由:该基准填补了形式化定理证明中奖励模型评估工具的空白,揭示专用定理证明模型在评估任务上的不足,为改进RL训练信号提供了明确方向。
原文
精选全部日报登录