№gsm8k·product
GSM8K
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-11
- 累计提及
- 16
§ 01综述
GSM8K(Grade School Math 8K)是一个包含8000道小学数学应用题的数据集,常用于评估大语言模型的算术推理能力。近期,该基准再次受到关注,相关研究揭示了模型推理的脆弱性并提出新的改进方法。
一项来自DeepSeek的研究提出“自动数值重映射攻击”,通过替换数字为随机对齐的数值,导致模型算术完全崩溃,揭示了其实际未真正理解数学规则,而仅依赖模式匹配。该攻击在多个先进模型上效果显著,包括DeepSeek本身。(自动数值重映射攻击揭示LLM算术推理脆弱性)
为提升推理鲁棒性,eMoT框架通过“符号锚定”和“记忆腐蚀演化”机制,结合思维链动态调整步数,在GSM8K上达到95.1%的准确率,同时降低了推理成本。(eMoT:通过符号锚定和记忆腐蚀演化的思维记忆框架)
NVIDIA的X-Token技术通过跨分词器知识蒸馏,将教师模型Token嵌入映射至学生模型,在GSM8K上相较GOLD方法提升了3.82个平均分,证明轻量模型也能通过蒸馏获得强数学推理能力。(NVIDIA 推出 X-Token:跨分词器知识蒸馏...)
当前焦点集中在GSM8K作为基准的可靠性和模型真实推理能力的差距上。对抗攻击实验表明,当前模型在算术推理上仍高度脆弱,而改进方法如eMoT和X-Token则展示了提升鲁棒性的可能路径。未来值得观察:如何构建更全面的基准以区分模式匹配与真正推理,以及这些抗干扰技术能否泛化到其他数学推理任务中。