MaxProof: 用生成-验证强化学习实现数学证明的规模扩展

精选理由

数学证明是 AI 推理的硬核测试，MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈，做数学 AI 或推理系统的研究者值得关注其方法。

AI 摘要

MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架，由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力，并整合为单一模型。在测试时，MaxProof 将模型作为生成器、验证器、优化器和排序器，对候选证明群体进行搜索，并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上，M3 模型分别达到 35/42 和 36/42，超过了人类金牌阈值。

AI 翻译 · 中文

arXiv cs.LGWe present MaxProof, a population-level test-time scaling framework for competition-level mathematical proof in the MiniMax-M3 series. M3 first trains three proof-oriented capabilities -- proof generation, proof verifica…

SiliconFlowAI06-11 16:26原文
LMSYS Org (SGLang)06-12 14:18原文
vLLM06-12 14:47原文
Poe06-12 18:15原文
lmarena.ai06-12 22:40原文
Together AI06-13 02:53原文
IT之家06-13 03:51原文

阅读原文