6月30日
6月26日
6月25日
10:59
09:38
09:38arXiv cs.AI@Ke Zhao, Zixiang Di, Hong Qian, Xiang Shu, Yaolin Wen, Qitao Shi, Bingdong Li, Xingyu Lu, Xiangfeng Wang, Jun Zhou, Ke Tang, Yang Yu
MiniOpt是一种强化学习框架,采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解,避免专家演示依赖。在少于10B参数的模型中,MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力,代码已开源。
推荐理由:想用小型模型搞定各种优化问题?MiniOpt用3B参数就做到了不错的效果,而且代码开源随便玩。
6月23日
12:56
12:56arXiv cs.AI@Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman
72°
SPIRAL提出一种新训练框架,让语言模型在推理时同时使用顺序链式思维、平行采样和最终聚合三种原语。该方法通过集束强化学习优化所有组件,在推理任务中扩展效果优于GRPO,最高实现11倍扩展效率和15%性能提升。实验表明模型能有效学习生成对聚合有用的轨迹集并改进最终答案。
推荐理由:这篇论文的SPIRAL方法教模型自己学会并行思考再汇总,比单纯加大顺序推理高效11倍,效果还更好,值得做推理扩展的朋友看看。
6月19日
6月18日
6月17日
6月16日
6月12日
13:47
13:47arXiv cs.LG@Jiacheng Chen, Xinyu Zhang, Shunkai Zhang, Yanmohan Wang, Lin Li, Tiancheng Qin, Qin Wang, Zhengmao Zhu, Tianle Li, Jingyang Li, Zehan Li, Binyang Jiang, Jin Zhu, Han Ding, Fei Yu, Chenyu Du, Zijian Song, Jiayuan Song, Zhi Zhang, Yunan Huang, Weiyu Cheng, Pengyu Zhao, Yu Cheng
73°
MaxProof 是一个面向竞赛级数学证明的群体级测试时扩展框架,由 MiniMax-M3 系列模型实现。M3 模型通过深度防御生成式验证器训练了证明生成、验证和基于批评的修复三种能力,并整合为单一模型。在测试时,MaxProof 将模型作为生成器、验证器、优化器和排序器,对候选证明群体进行搜索,并通过锦标赛选择输出最终证明。在 IMO 2025 和 USAMO 2026 上,M3 模型分别达到 35/42 和 36/42,超过了人类金牌阈值。

推荐理由:数学证明是 AI 推理的硬核测试,MaxProof 用群体搜索和验证器强化学习突破了竞赛级证明的瓶颈,做数学 AI 或推理系统的研究者值得关注其方法。