10:36arXiv cs.AI@Husnain Amjad, Raja Khurram Shahzad, Aamir Shahzad, Mehwish Fatima精选这篇综述系统梳理了大型语言模型在数学推理领域的最新进展,涵盖约120篇论文。文章提出了统一的数学数据集分类法,区分了预训练语料、监督微调资源和评估基准。它分析了推理架构和训练策略(如工具集成、验证器引导推理、参数高效微调)对鲁棒性和泛化能力的影响。比较评估揭示了最终答案准确率与过程级推理验证之间的差距。最后,论文指出了常见失败模式(如推理忠实性问题、基准偏差)和未来研究方向。论文推理模型数学推理综述/论文评估基准LLM推荐理由:做LLM推理研究或评估的团队,这篇综述帮你系统梳理了120篇论文的脉络,直接拿来当研究起点,省去大量文献筛选时间。原文