近期,数学推理领域在多个方向上取得显著突破。一方面,大语言模型(LLM)的数学推理能力持续提升,例如通过技能条件门控自蒸馏(Skill-Conditioned Gated Self-Distillation)方法,模型能够更有效地利用自身知识进行推理(Skill-Conditioned Gated Self-Distillation 提升 LLM 推理能力)。另一方面,强化学习训练策略也有新进展,ESPO(早期停止PPO)技术在不降低推理性能的前提下,可节省约20%的推理token,从而提升效率(ESPO:早期停止PPO,节省20%推理token并提升数学推理性能)。
然而,数学推理的评估基准面临着语义不变性挑战。FormInv协议提出了一种测量基准语义不变性的方法,揭示现有排名存在漏洞,这一发现对当前评估体系的可靠性提出了质疑(FormInv:数学推理基准语义不变性测量协议,揭示排名漏洞)。
在解决经典数学难题方面,多个团队取得了突破性成果。Anthropic的Claude Mythos据报道解决了一个80年历史的Erdős问题,并以“可爱简单证明”闻名(继 OpenAI 后,Anthropic 的 Claude Mythos 也解出 80 年数学难题;Claude Mythos 用“可爱简单证明”解决 OpenAI 的 Erdős 问题)。同时,Google DeepMind的AlphaProof Nexus展示了强大的自主解题能力,成功解决9个Erdős难题,包括两个长达56年未解的公开问题,且成本仅数百美元(DeepMind AlphaProof Nexus:自主解决9个Erdős难题,含两个56年未解问题;Google DeepMind AlphaProof Nexus 以数百美元解决56年未解数学难题)。相比OpenAI早期的工作,DeepMind的神经符号方法被认为更加严谨(DeepMind神经符号方法解决9个Erdos问题,比OpenAI更严谨)。此外,也有个人研究者取得佳绩,普林斯顿一位年轻教授在Erdős游戏上击败了OpenAI(普林斯顿年轻教授在Erdos游戏上击败OpenAI)。
当前焦点在于:如何在大语言模型与形式化证明系统(如Lean)之间建立更高效的桥梁,使AI不仅能解题,还能生成可验证的证明(Google DeepMind 新论文:AI 在 Lean 中搜索形式化数学证明)。同时,评估基准的鲁棒性和公平性也亟需关注。未来观察点包括:这些AI解题方法能否推广到更多未解决的数学问题,以及它们在教育和数学研究中的实际应用价值。