10:22arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang研究团队提出Diffusion-Proof,这是首个将扩散LLM(dLLM)应用于形式定理证明的框架。该框架包含两个7B模型:dLLM-Prover-7B负责整段证明生成,dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线,Diffusion-Proof在ProofNet-Test上提升1.61%,在MiniF2F-Test上提升6.14%。此外,该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题,展示了扩散模型在长程连贯性任务上的优势。AI模型Diffusion-ProofdLLM推理模型形式定理证明数学证明推荐理由:扩散模型也能做定理证明了,比自回归强,MiniF2F上高出6个百分点,还解了一道DeepSeek没解出的IMO题。原文
13:47arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng73°MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架,由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力,并整合为单一模型。在测试时,MaxProof 将模型作为生成器、验证器、优化器和排序器,对候选证明群体进行搜索,并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上,M3 模型分别达到 35/42 和 36/42,超过了人类金牌阈值。论文数学证明强化学习验证器测试时扩展MiniMax-M37 个信源在谈推荐理由:数学证明是 AI 推理的硬核测试,MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈,做数学 AI 或推理系统的研究者值得关注其方法。原文
12:35Mark Chen (OpenAI 研究)@markchen9083°OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想,给出了一个优雅而复杂的证明,融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域,专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类,而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作,并将经验推广到编程和通用协作领域。AI模型OpenAI推理模型数学证明代数数论Erdős猜想8 个信源在谈推荐理由:数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题,证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想,这对理解 AI 在严谨科学中的潜力很有启发。原文
20:56berryxia@berryxia88°Anthropic 于 2026 年 4 月 7 日发布 Project Glasswing 及 Claude Mythos Preview,该前沿模型网络攻防能力极强,因安全顾虑仅开放给合作伙伴用于防御。OpenAI 则在 5 月 20 日宣布其内部通用推理模型成功推翻数学家 Paul Erdős 的平面单位距离问题猜想。这两件事共同表明,前沿模型在更高抽象层面的可靠推理能力已迈过临界点,能稳定处理完整论证和知识体系,而非仅限片段操作。Claude Mythos Preview 在编码和网络安全评测中表现突出,多数基准测试超越 GPT-5.5。AI模型推理模型网络安全数学证明AnthropicOpenAI10 个信源在谈推荐理由:AI 推理能力从片段到完整体系的跃迁,是开发者和安全从业者必须关注的分水岭——Claude Mythos 的防御性开放和 OpenAI 的数学突破,直接改变了模型应用边界,建议点开了解具体案例。原文
12:58IT之家(博客/媒体)83°谷歌 DeepMind 推出 AlphaProof Nexus,结合大语言模型与 Lean 形式化验证,在 353 个开放的 Erdős 问题中自主解决 9 个,包括 2 个悬而未决 56 年的问题。该系统由 4 个复杂度递增的 AI 智能体组成,每个问题推理成本仅数百美元。研究还发现,最简单的 Agent A 也能证明这些难题,反映出底层模型能力提升和编译器反馈的锚定作用。这标志着 AI 在数学研究领域取得重大突破,能自主发现并证明长期未解猜想。AI模型谷歌 DeepMindAlphaProof Nexus数学证明形式化验证Erdős 问题推荐理由:数学研究者和 AI 爱好者会兴奋——AlphaProof Nexus 用数百美元成本就解决了人类 56 年未解的难题,证明 AI 已能自主推进数学前沿,值得点开看看具体怎么做到的。原文
10:29AI Will@FinanceYF593°Google DeepMind 发布 AlphaProof Nexus,一个基于 Gemini 的 agentic 框架,用于形式化数学证明搜索。该 AI agent 自主解决了 9 个 Erdős 问题(其中两个已开放 56 年)、44 个 OEIS 问题、一个 15 年未解的代数几何问题和一个 7 年未解的 min-max 优化问题。整个推理成本仅几百美元,标志着 AI 从做练习题转向真正的数学研究。AI模型AI agent数学证明DeepMindGemini形式化验证推荐理由:AI 用几百美元成本解决了人类数学家 56 年未解的问题,做数学研究或形式化验证的团队值得关注——这可能是数学研究自动化的转折点。原文
22:16Gary Marcus@GaryMarcusGaryMarcus 在 X 上转发了一条消息,称标准 GPT-5.5 已经成功复现了某个数学证明,并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接,显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论:是模型真的变强了,还是任务难度被高估了。AI模型GPT-5.5推理模型阶跃变化AI 能力评估数学证明推荐理由:AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思,看完会重新审视模型能力的评估标准。原文
08:05AI Will@FinanceYF588°OpenAI 的一个通用推理模型成功证明了一个数学难题,该模型并非专门为数学问题设计,而是具备广泛推理能力的系统。这一成果被视为数学与人工智能社区的重要里程碑,表明通用 AI 在复杂推理任务上已取得突破。该模型通过自我改进和逻辑推理,无需领域特化即可解决高难度数学问题。这为未来通用 AI 在科学、工程等领域的应用打开了新可能。AI模型通用推理模型数学证明OpenAI里程碑人工智能10 个信源在谈推荐理由:通用推理模型攻克数学难题,证明 AI 不再需要特化就能做高难度推理——做 AI 研究和数学建模的团队值得关注,这可能是通用智能落地的信号。原文
08:05IT之家(博客/媒体)83°OpenAI 宣布其全新推理模型成功推翻了一个由数学家埃尔德什于 1946 年提出的几何猜想,这是 AI 首次自主攻克数学核心领域的重大未解难题。该模型并非为数学问题定制,而是通用推理系统,能梳理复杂逻辑链条并跨学科关联知识。OpenAI 附上了多位数学家的佐证,避免了此前 GPT-5 声称攻克难题却实为现成解法的尴尬。这一突破被认为将对生物学、物理学、工程学和医学产生深远影响。AI模型推理模型数学证明OpenAI几何猜想科研突破10 个信源在谈推荐理由:AI 首次自主攻克数学核心难题,对数学、物理等领域的科研人员是重大信号——AI 已能发现人类未曾想到的解法,做基础研究的团队值得关注。原文
07:57SuperTechFans(博客/媒体)精选OpenAI 内部模型构造出单位距离对数为 n^(1+δ) 的点集,推翻长期认为方格构造最优的假设。该证明经外部数学家验证并发表伴随论文,是 AI 首次自主完成复杂数学证明的里程碑。菲尔兹奖得主蒂姆·高斯等数学家高度评价此成果,认为 AI 已具备原创性和执行力。AI模型OpenAI单位距离问题数学证明推理模型10 个信源在谈推荐理由:AI 首次独立证明数学猜想原文
07:51OpenAI@OpenAI (@OpenAI)精选76°OpenAI 宣布其通用推理模型成功证明了一个数学难题,该模型并非专门为数学问题设计,而是具备广泛推理能力。这一成果被视为数学和 AI 社区的重要里程碑,展示了通用 AI 在复杂推理任务上的潜力。该证明由通用模型完成,而非针对特定问题优化的系统,凸显了 AI 推理能力的泛化性。AI模型推理模型数学证明OpenAI通用AI里程碑10 个信源在谈推荐理由:通用推理模型攻克数学难题,证明了 AI 在数学推理上的泛化能力,数学研究者和 AI 开发者值得关注这一突破。原文