精选理由
微软用自研数据+强化学习打造了强推理模型,做 AI 推理或模型训练的团队值得关注其“爬山机器”方法论,尤其是 35B 激活参数就能达到接近顶尖水平的效率。
微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。
AI 翻译 · 中文
微软发布了 MAI-Thinking-1,这是其自研推理模型系列的首个成果。该模型采用 1T 总参数的混合专家架构,每次推理仅激活 35B 参数,在 AIME 2025 上达到 97.0%,LiveCodeBench v6 上 87.7%,SWE-Bench Pro 上 52.8%。微软称其训练流程为“爬山机器”,通过持续优化数据、训练、奖励和安全测试形成闭环。预训练基于 30T 主要人工生成 token,避免使用第三方模型蒸馏,随后通过强化学习提升数学、编程、工具使用和安全能力。这标志着微软在推理模型领域建立了完整的自研能力。
Microsoft unveiled MAI-Thinking-1. So Microsoft now has a full in-house pipeline for building stronger reasoning models again and again. Microsoft calls this system a “hill-climbing machine,” meaning it keeps improving t…