论文73°

MaxProof: 用生成-验证强化学习实现数学证明的规模扩展

MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling

精选理由

数学证明是 AI 推理的硬核测试,MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈,做数学 AI 或推理系统的研究者值得关注其方法。

AI 摘要

MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架,由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力,并整合为单一模型。在测试时,MaxProof 将模型作为生成器、验证器、优化器和排序器,对候选证明群体进行搜索,并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上,M3 模型分别达到 35/42 和 36/42,超过了人类金牌阈值。

AI 翻译 · 中文

MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架,由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力,并整合为单一模型。在测试时,MaxProof 将模型作为生成器、验证器、优化器和排序器,对候选证明群体进行搜索,并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上,M3 模型分别达到 35/42 和 36/42,超过了人类金牌阈值。

arXiv cs.LGWe present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verifica