精选理由
做LLM评估和推理优化的团队会关心——GSM8K的脆弱性说明基准测试可能高估了模型的真实推理能力,建议关注数值变化对模型泛化的影响。
研究者提出了一种自动算法,通过生成数值重映射攻击来测试大语言模型在算术推理中的泛化能力。该方法自动推导问题的符号表示,生成约束数值映射并重新计算答案,通过确定性编辑实现问题变换。在GSM8K、MAWPS和MultiArith数据集上测试DeepSeek-R1、Gemma4和GPT-OSS模型,发现GSM8K上条件准确率下降12.16至25.82个百分点,而MAWPS和MultiArith更稳定。结果表明数值重映射鲁棒性强烈依赖于数据集结构,GSM8K即使保留推理程序仍敏感,而较短更规则的数据集更鲁棒。
AI 翻译 · 中文
研究者提出了一种自动算法,通过生成数值重映射攻击来测试大语言模型在算术推理中的泛化能力。该方法自动推导问题的符号表示,生成约束数值映射并重新计算答案,通过确定性编辑实现问题变换。在GSM8K、MAWPS和MultiArith数据集上测试DeepSeek-R1、Gemma4和GPT-OSS模型,发现GSM8K上条件准确率下降12.16至25.82个百分点,而MAWPS和MultiArith更稳定。结果表明数值重映射鲁棒性强烈依赖于数据集结构,GSM8K即使保留推理程序仍敏感,而较短更规则的数据集更鲁棒。
Large language models achieve strong performance on arithmetic reasoning benchmarks, and one common response to arithmetic brittleness is to delegate computation to code. Yet models are still often used in settings where…
- Philipp Schmid06-03 16:23原文