LLM数学推理综述：基准、架构、评估与开放挑战

精选理由

做LLM推理研究或评估的团队，这篇综述帮你系统梳理了120篇论文的脉络，直接拿来当研究起点，省去大量文献筛选时间。

AI 摘要

这篇综述系统梳理了大型语言模型在数学推理领域的最新进展，涵盖约120篇论文。文章提出了统一的数学数据集分类法，区分了预训练语料、监督微调资源和评估基准。它分析了推理架构和训练策略（如工具集成、验证器引导推理、参数高效微调）对鲁棒性和泛化能力的影响。比较评估揭示了最终答案准确率与过程级推理验证之间的差距。最后，论文指出了常见失败模式（如推理忠实性问题、基准偏差）和未来研究方向。

AI 翻译 · 中文

arXiv cs.AIMathematical reasoning is essential for problem-solving in education, science, and industry, serving as a crucial benchmark for evaluating artificial intelligence systems. As Large Language Models (LLMs) improve their re…

阅读原文