精选 AI 资讯 · AI 热点

arXiv cs.AI@Jui-Hui Chung, Ziyang Cai, Zihao Li, Qishuo Yin, Rohit Agarwal, Simon Park, Rodrigo Porto, Narutatsu Ri, Ziran Yang, Shange Tang, Xingyu Dang, Hongzhou Lin, Mengdi Wang, Danqi Chen, Chi Jin, Liam H Fowl, Sanjeev Arora

精选83°

Goedel-Architect 是一个基于 Lean 4 的智能体框架，通过生成和精炼“蓝图”（定义和引理的依赖图）来简化形式化定理证明。它先根据自然语言证明生成蓝图，然后并行证明每个引理节点，失败节点会驱动全局蓝图精炼，避免了传统递归分解的低效循环。使用开源模型 DeepSeek-V4-Flash 作为骨干，在 MiniF2F-test 上达到 99.2% pass@1，在 PutnamBench 上达到 75.6% pass@1。结合自然语言证明引导，可解决更难的题目，如 IMO 2025 的 4/6 和 Putnam 2025 的 11/12。该框架在开源管道中实现了最先进性能，且成本比同类开源方案低 500 倍。

论文定理证明 Lean 4 蓝图生成智能体框架 DeepSeek

推荐理由：形式化定理证明一直门槛高、成本高，Goedel-Architect 用蓝图+精炼策略大幅提升效率，做数学证明或形式化验证的团队值得关注，开源且成本极低。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月20日

15:41

arXiv cs.AI@Gabriel Rongyang Lau

精选

本文报告了使用Aristotle API对IMO 2009第6题（Grasshopper问题）进行Lean 4形式化证明的案例。生成的代码包含一个广义定理的Lean版本、四个已验证的辅助引理，但主定理的证明中有一个未解决的“sorry”占位符。已验证的部分建立了局部数学性质，但全局组合计数步骤未被自动化证明覆盖。该案例揭示了AI辅助形式化的核心局限：局部证明搜索可以成功，但全局推理仍需人工介入。论文提供了可复现的Lean代码，并分析了已验证与未验证的证明内容。

论文定理证明 Lean 4 Aristotle API 形式化验证 IMO问题

推荐理由：这个案例对做AI辅助形式化验证的团队很有参考价值——它清晰展示了当前AI在局部引理证明上的能力，以及全局推理的瓶颈，做Lean或定理证明器开发的值得点开看看。

原文

5月19日

09:57

arXiv cs.AI@Wentao Long, Yunfei Zhang, Chenyi Li, Li Zhou, Chumin Sun, Zaiwen Wen

精选

CAM-Bench是一个新的Lean 4定理证明基准，包含1000个计算与应用数学领域的证明目标，涵盖优化、数值线性代数和数值分析。这些题目改编自教科书习题，依赖局部定义、符号和算法。研究者开发了依赖恢复管道，将每个问题标准化为独立定理并翻译成Lean目标。该基准填补了现有形式化数学基准（如IMO风格问题）的空白，聚焦于应用数学中依赖教科书概念和初等定理的题目。评估显示，现有大模型和形式化代理在跟踪局部假设、应用初等结果、分解证明和长期控制方面存在常见失败模式。

论文定理证明 Lean 4 基准测试应用数学形式化验证

推荐理由：做形式化验证或AI数学推理的团队终于有了应用数学方向的专用基准，比纯代数题更贴近实际工程场景，建议关注其失败模式分析来改进模型。

原文