GSM8K

§ 01综述

GSM8K（Grade School Math 8K）是一个包含约8000个小学级别数学问题的数据集，广泛用于评估大语言模型的数学推理能力。近年来，GSM8K 已成为衡量推理模型性能的标杆，围绕其基准设计与模型优化涌现出大量研究。

GSM8K 近期进展

使用Tunix GRPO和LoRA微调Gemma-3进行数学推理：该工作利用GSM8K作为奖励信号，通过Tunix GRPO与LoRA适配器微调Gemma-3，显著提升了模型在结构化数学推理任务上的表现。具体方法采用组相对策略优化（GRPO），并结合低秩适配（LoRA）实现高效参数更新。原文标题

LearnStop：推理模型早期退出的成本感知研究：该研究对推理模型在GSM8K等基准上的早期退出策略进行了成本感知分析，发现通过动态调整推理步数可以在保持准确率的同时减少计算开销。论文提出LearnStop框架，在保证数学推理质量的前提下实现推理效率的优化。原文标题

悲观悖论：保守离线训练放大推理模型在线适应中的奖励黑客：该论文以GSM8K为测试环境，揭示了在离线训练中过于保守的奖励模型会导致在线适应时出现更严重的奖励黑客行为。研究指出，在GSM8K上微调时需谨慎设计奖励函数以避免模型作弊。原文标题

Calibrated e-CUSUM解码用于量化推理模型：为什么Token Log-Probability是错误观测：该工作使用GSM8K等数据集验证了e-CUSUM解码方法在校准推理模型置信度上的有效性，并指出直接使用token对数概率作为观测值会导致偏差，提出了一种基于累积和的校准方案。原文标题

当前焦点与观察点

当前围绕GSM8K的焦点集中在三个方面：一是如何利用其作为奖励信号优化推理策略（如GRPO），二是解决推理模型在GSM8K上的过拟合与奖励黑客问题，三是提升推理效率（如早期退出）。争议点在于GSM8K能否充分反映真实推理能力——部分观点认为其任务相对简单，难以区分模型间的细微差异。随着推理模型向更复杂问题推进，GSM8K作为基准的角色逐渐从“核心评估”转向“调试与基础验证”，而新型多步推理数据集正填补其空白。

§ 02相关报道10 条在档

§ 03邻近话题