精选 AI 资讯 · AI 热点

6月12日

09:44

09:44

arXiv: DeepSeek@Joshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia

精选73°

Pythagoras-Prover 是一个计算高效的 Lean 定理证明器系列，包含 4B 和 32B 参数的自回归模型，以及首个基于扩散的证明器（4B）。通过课程式监督微调和动态证明过滤，训练效率大幅提升。其 4B 模型在 MiniF2F-Test 上以 86.1% 的 pass@32 超越 DeepSeek-Prover-V2-671B（82.4%），参数减少约 167 倍；32B 模型达到 93.0%，创下开源新纪录。团队还提出了增强型 Lean 形式化方法（ALF），通过扰动已知问题生成变体，减少对表面形式的依赖，并发布了 MiniF2F-ALF 基准。

论文定理证明器 Lean Pythagoras-Prover 形式化验证计算效率

推荐理由：形式化证明领域终于有了计算高效的实用方案——4B 模型就能超越 671B 巨无霸，做定理证明或形式化验证的团队可以直接用，省下大量算力成本。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

11:52

11:52

arXiv cs.AI@Wesley Pegden

精选

Trellis 是一个自动形式化系统，利用 LLM 智能体在确定性约束的工作流中，通过迭代优化自然语言证明，逐步推进 Lean 自动形式化任务。该系统受数学家对“严谨证明”的直觉启发——即证明的任何部分都可以被进一步详细阐述。Trellis 在有限预算下使用通用智能体实现了可靠的自动形式化，其专业化来自“严谨性”含义驱动的工作流，而非特定任务训练。论文还展示了该系统生成的 Ramsey 理论最新突破的端到端 Lean 形式化证明。

论文自动形式化 Lean LLM智能体定理证明工作流

推荐理由：Trellis 解决了自动形式化中可靠性与成本之间的平衡问题，做定理证明或形式化验证的开发者可以直接用这个工作流来生成 Lean 证明，值得关注其开源实现。

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月22日

11:11

11:11

arXiv cs.AI@George Tsoukalas, Anton Kovsharov, Sergey Shirobokov, Anja Surina, Moritz Firsching, Gergely Bérczi, Francisco J. R. Ruiz, Arun Suggala, Adam Zsolt Wagner, Eric Wieser, Lei Yu, Aja Huang, Miklós Z. Horváth, Andrew Ferrauiolo, Henryk Michalewski, Codrut Grosu, Thomas Hubert, Matej Balog, Pushmeet Kohli, Swarat Chaudhuri

精选72°

研究人员首次大规模评估了用大语言模型生成形式化证明（Lean 语言）解决开放数学问题的能力。其最强大的智能体以每个问题几百美元的成本，自主解决了 353 个开放 Erdős 问题中的 9 个，并证明了 492 个 OEIS 猜想中的 44 个。该智能体已被部署在组合数学、优化、图论、代数几何和量子光学研究中。一个更基础的智能体（交替 LLM 生成与 Lean 验证）也复现了 Erdős 问题的成功，但在最难问题上成本更高。这些结果展示了 AI 辅助形式化证明搜索的潜力，并揭示了实现这一能力的智能体设计。

论文形式化证明 Lean 大语言模型数学推理 Erdős 问题

推荐理由：数学研究者终于有了能真正解决开放问题的 AI 工具——成本可控且覆盖多个数学分支，做组合数学或图论的人可以直接用这个智能体尝试自己的猜想。