数学推理 · AI 话题观测

§ 01综述

近期，数学推理领域在多个方向上取得显著突破。一方面，大语言模型（LLM）的数学推理能力持续提升，例如通过技能条件门控自蒸馏（Skill-Conditioned Gated Self-Distillation）方法，模型能够更有效地利用自身知识进行推理（Skill-Conditioned Gated Self-Distillation 提升 LLM 推理能力）。另一方面，强化学习训练策略也有新进展，ESPO（早期停止PPO）技术在不降低推理性能的前提下，可节省约20%的推理token，从而提升效率（ESPO：早期停止PPO，节省20%推理token并提升数学推理性能）。

然而，数学推理的评估基准面临着语义不变性挑战。FormInv协议提出了一种测量基准语义不变性的方法，揭示现有排名存在漏洞，这一发现对当前评估体系的可靠性提出了质疑（FormInv：数学推理基准语义不变性测量协议，揭示排名漏洞）。

在解决经典数学难题方面，多个团队取得了突破性成果。Anthropic的Claude Mythos据报道解决了一个80年历史的Erdős问题，并以“可爱简单证明”闻名（继 OpenAI 后，Anthropic 的 Claude Mythos 也解出 80 年数学难题；Claude Mythos 用“可爱简单证明”解决 OpenAI 的 Erdős 问题）。同时，Google DeepMind的AlphaProof Nexus展示了强大的自主解题能力，成功解决9个Erdős难题，包括两个长达56年未解的公开问题，且成本仅数百美元（DeepMind AlphaProof Nexus：自主解决9个Erdős难题，含两个56年未解问题；Google DeepMind AlphaProof Nexus 以数百美元解决56年未解数学难题）。相比OpenAI早期的工作，DeepMind的神经符号方法被认为更加严谨（DeepMind神经符号方法解决9个Erdos问题，比OpenAI更严谨）。此外，也有个人研究者取得佳绩，普林斯顿一位年轻教授在Erdős游戏上击败了OpenAI（普林斯顿年轻教授在Erdos游戏上击败OpenAI）。

当前焦点在于：如何在大语言模型与形式化证明系统（如Lean）之间建立更高效的桥梁，使AI不仅能解题，还能生成可验证的证明（Google DeepMind 新论文：AI 在 Lean 中搜索形式化数学证明）。同时，评估基准的鲁棒性和公平性也亟需关注。未来观察点包括：这些AI解题方法能否推广到更多未解决的数学问题，以及它们在教育和数学研究中的实际应用价值。

§ 02相关报道10 条在档

§ 03邻近话题