09:44arXiv: DeepSeek@Joshua Ong Jun Leang, Zheng Zhao, Mihaela Cătălina Stoian, Qiyuan Xu, Haonan Li, Wenda Li, Shay B. Cohen, Eleonora Giunchiglia精选73°Pythagoras-Prover 是一个计算高效的 Lean 定理证明器系列,包含 4B 和 32B 参数的自回归模型,以及首个基于扩散的证明器(4B)。通过课程式监督微调和动态证明过滤,训练效率大幅提升。其 4B 模型在 MiniF2F-Test 上以 86.1% 的 pass@32 超越 DeepSeek-Prover-V2-671B(82.4%),参数减少约 167 倍;32B 模型达到 93.0%,创下开源新纪录。团队还提出了增强型 Lean 形式化方法(ALF),通过扰动已知问题生成变体,减少对表面形式的依赖,并发布了 MiniF2F-ALF 基准。论文定理证明器LeanPythagoras-Prover形式化验证计算效率推荐理由:形式化证明领域终于有了计算高效的实用方案——4B 模型就能超越 671B 巨无霸,做定理证明或形式化验证的团队可以直接用,省下大量算力成本。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……