全部 AI 动态 · AI 热点

6月18日

10:22

10:22

arXiv: DeepSeek@Ruida Wang, Rui Pan, Pengcheng Wang, Shizhe Diao, Tong Zhang

研究团队提出Diffusion-Proof，这是首个将扩散LLM（dLLM）应用于形式定理证明的框架。该框架包含两个7B模型：dLLM-Prover-7B负责整段证明生成，dLLM-Corrector-7B利用双向信息进行局部校正。相比同等数据集训练的自回归基线，Diffusion-Proof在ProofNet-Test上提升1.61%，在MiniF2F-Test上提升6.14%。此外，该框架成功解决了一个更先进的DeepSeek-Prover-V2-7B未能解答的IMO问题，展示了扩散模型在长程连贯性任务上的优势。

AI模型 Diffusion-Proof dLLM 推理模型形式定理证明数学证明

推荐理由：扩散模型也能做定理证明了，比自回归强，MiniF2F上高出6个百分点，还解了一道DeepSeek没解出的IMO题。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:47

13:47

arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng

73°

MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架，由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力，并整合为单一模型。在测试时，MaxProof 将模型作为生成器、验证器、优化器和排序器，对候选证明群体进行搜索，并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上，M3 模型分别达到 35/42 和 36/42，超过了人类金牌阈值。

论文数学证明强化学习验证器测试时扩展 MiniMax-M3

推荐理由：数学证明是 AI 推理的硬核测试，MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈，做数学 AI 或推理系统的研究者值得关注其方法。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:35

12:35

Mark Chen (OpenAI 研究)@markchen90

83°

OpenAI 的一个模型成功推翻了 Erdős 长期未解的单位距离猜想，给出了一个优雅而复杂的证明，融合了代数数论与几何的深刻思想。数学成为 AI 研究突破最显著的领域，专家们愿意与 AI 生成的证明深度互动。OpenAI 强调目标并非取代人类，而是探索人类在强大 AI 时代仍能发挥重要作用的路径。团队计划与数学界合作，并将经验推广到编程和通用协作领域。

AI模型 OpenAI 推理模型数学证明代数数论 Erdős猜想

推荐理由：数学研究者或对 AI 推理能力感兴趣的人会震撼——OpenAI 模型解决了数论几何交叉的经典难题，证明过程优雅且可验证。建议点开看看 AI 如何用代数数论工具攻克几何猜想，这对理解 AI 在严谨科学中的潜力很有启发。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月27日

20:56

20:56

berryxia@berryxia

88°

Anthropic 于 2026 年 4 月 7 日发布 Project Glasswing 及 Claude Mythos Preview，该前沿模型网络攻防能力极强，因安全顾虑仅开放给合作伙伴用于防御。OpenAI 则在 5 月 20 日宣布其内部通用推理模型成功推翻数学家 Paul Erdős 的平面单位距离问题猜想。这两件事共同表明，前沿模型在更高抽象层面的可靠推理能力已迈过临界点，能稳定处理完整论证和知识体系，而非仅限片段操作。Claude Mythos Preview 在编码和网络安全评测中表现突出，多数基准测试超越 GPT-5.5。

AI模型推理模型网络安全数学证明 Anthropic OpenAI

推荐理由：AI 推理能力从片段到完整体系的跃迁，是开发者和安全从业者必须关注的分水岭——Claude Mythos 的防御性开放和 OpenAI 的数学突破，直接改变了模型应用边界，建议点开了解具体案例。

5月26日

12:58

12:58IT之家（博客/媒体）

83°

谷歌 DeepMind 推出 AlphaProof Nexus，结合大语言模型与 Lean 形式化验证，在 353 个开放的 Erdős 问题中自主解决 9 个，包括 2 个悬而未决 56 年的问题。该系统由 4 个复杂度递增的 AI 智能体组成，每个问题推理成本仅数百美元。研究还发现，最简单的 Agent A 也能证明这些难题，反映出底层模型能力提升和编译器反馈的锚定作用。这标志着 AI 在数学研究领域取得重大突破，能自主发现并证明长期未解猜想。

AI模型谷歌 DeepMind AlphaProof Nexus 数学证明形式化验证 Erdős 问题

推荐理由：数学研究者和 AI 爱好者会兴奋——AlphaProof Nexus 用数百美元成本就解决了人类 56 年未解的难题，证明 AI 已能自主推进数学前沿，值得点开看看具体怎么做到的。

10:29

10:29

AI Will@FinanceYF5

93°

Google DeepMind 发布 AlphaProof Nexus，一个基于 Gemini 的 agentic 框架，用于形式化数学证明搜索。该 AI agent 自主解决了 9 个 Erdős 问题（其中两个已开放 56 年）、44 个 OEIS 问题、一个 15 年未解的代数几何问题和一个 7 年未解的 min-max 优化问题。整个推理成本仅几百美元，标志着 AI 从做练习题转向真正的数学研究。

AI模型 AI agent 数学证明 DeepMind Gemini 形式化验证

推荐理由：AI 用几百美元成本解决了人类数学家 56 年未解的问题，做数学研究或形式化验证的团队值得关注——这可能是数学研究自动化的转折点。

5月22日

22:16

22:16

Gary Marcus@GaryMarcus

GaryMarcus 在 X 上转发了一条消息，称标准 GPT-5.5 已经成功复现了某个数学证明，并质疑这是否意味着所谓的“阶跃变化”只是问题本身更简单。该推文引用了 ChatGPT 的分享链接，显示模型在推理任务上的表现。这一讨论反映了 AI 社区对模型能力提升本质的持续争论：是模型真的变强了，还是任务难度被高估了。

AI模型 GPT-5.5 推理模型阶跃变化 AI 能力评估数学证明

推荐理由：AI 研究者和大模型用户值得关注——GPT-5.5 的推理表现引发了对“阶跃变化”定义的反思，看完会重新审视模型能力的评估标准。

08:05

08:05

AI Will@FinanceYF5

88°

OpenAI 的一个通用推理模型成功证明了一个数学难题，该模型并非专门为数学问题设计，而是具备广泛推理能力的系统。这一成果被视为数学与人工智能社区的重要里程碑，表明通用 AI 在复杂推理任务上已取得突破。该模型通过自我改进和逻辑推理，无需领域特化即可解决高难度数学问题。这为未来通用 AI 在科学、工程等领域的应用打开了新可能。

AI模型通用推理模型数学证明 OpenAI 里程碑人工智能

推荐理由：通用推理模型攻克数学难题，证明 AI 不再需要特化就能做高难度推理——做 AI 研究和数学建模的团队值得关注，这可能是通用智能落地的信号。

08:05

08:05IT之家（博客/媒体）

83°

OpenAI 宣布其全新推理模型成功推翻了一个由数学家埃尔德什于 1946 年提出的几何猜想，这是 AI 首次自主攻克数学核心领域的重大未解难题。该模型并非为数学问题定制，而是通用推理系统，能梳理复杂逻辑链条并跨学科关联知识。OpenAI 附上了多位数学家的佐证，避免了此前 GPT-5 声称攻克难题却实为现成解法的尴尬。这一突破被认为将对生物学、物理学、工程学和医学产生深远影响。

AI模型推理模型数学证明 OpenAI 几何猜想科研突破

推荐理由：AI 首次自主攻克数学核心难题，对数学、物理等领域的科研人员是重大信号——AI 已能发现人类未曾想到的解法，做基础研究的团队值得关注。

07:57

07:57SuperTechFans（博客/媒体）

精选

OpenAI 内部模型构造出单位距离对数为 n^(1+δ) 的点集，推翻长期认为方格构造最优的假设。该证明经外部数学家验证并发表伴随论文，是 AI 首次自主完成复杂数学证明的里程碑。菲尔兹奖得主蒂姆·高斯等数学家高度评价此成果，认为 AI 已具备原创性和执行力。

AI模型 OpenAI 单位距离问题数学证明推理模型

推荐理由：AI 首次独立证明数学猜想

5月21日

07:51

07:51

OpenAI@OpenAI (@OpenAI)

精选76°

OpenAI 宣布其通用推理模型成功证明了一个数学难题，该模型并非专门为数学问题设计，而是具备广泛推理能力。这一成果被视为数学和 AI 社区的重要里程碑，展示了通用 AI 在复杂推理任务上的潜力。该证明由通用模型完成，而非针对特定问题优化的系统，凸显了 AI 推理能力的泛化性。

AI模型推理模型数学证明 OpenAI 通用AI 里程碑

推荐理由：通用推理模型攻克数学难题，证明了 AI 在数学推理上的泛化能力，数学研究者和 AI 开发者值得关注这一突破。