gsm8k·product

GSM8K

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
16
§ 01综述

GSM8K(Grade School Math 8K)是一个包含8000道小学数学应用题的数据集,常用于评估大语言模型的算术推理能力。近期,该基准再次受到关注,相关研究揭示了模型推理的脆弱性并提出新的改进方法。

  • 一项来自DeepSeek的研究提出“自动数值重映射攻击”,通过替换数字为随机对齐的数值,导致模型算术完全崩溃,揭示了其实际未真正理解数学规则,而仅依赖模式匹配。该攻击在多个先进模型上效果显著,包括DeepSeek本身。(自动数值重映射攻击揭示LLM算术推理脆弱性
  • 为提升推理鲁棒性,eMoT框架通过“符号锚定”和“记忆腐蚀演化”机制,结合思维链动态调整步数,在GSM8K上达到95.1%的准确率,同时降低了推理成本。(eMoT:通过符号锚定和记忆腐蚀演化的思维记忆框架
  • NVIDIA的X-Token技术通过跨分词器知识蒸馏,将教师模型Token嵌入映射至学生模型,在GSM8K上相较GOLD方法提升了3.82个平均分,证明轻量模型也能通过蒸馏获得强数学推理能力。(NVIDIA 推出 X-Token:跨分词器知识蒸馏...
  • 当前焦点集中在GSM8K作为基准的可靠性和模型真实推理能力的差距上。对抗攻击实验表明,当前模型在算术推理上仍高度脆弱,而改进方法如eMoT和X-Token则展示了提升鲁棒性的可能路径。未来值得观察:如何构建更全面的基准以区分模式匹配与真正推理,以及这些抗干扰技术能否泛化到其他数学推理任务中。

    § 02相关报道04 条在档
    1. 01
      自动数值重映射攻击揭示LLM算术推理脆弱性
      arXiv: DeepSeek
    2. 02
      eMoT:通过符号锚定和记忆腐蚀演化的思维记忆框架
      arXiv cs.AI
    3. 03
      NVIDIA 推出 X-Token:跨分词器知识蒸馏,在 Llama-3.2-1B 上超越 GOLD 3.82 平均分
      marktechpost
    4. 04
      BrahmicTokenizer-131K:替代o200k_base的印度语言分词器
      arXiv: OpenAI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/GSM8K