质量-效用悖论：高奖励数据损害小模型数学推理

精选理由

这篇论文揭穿了一个直觉错误：你以为给小白模型喂“学霸笔记”能变强，结果效果还不如它自己瞎写的解题草稿。原因是学霸的思路和它不匹配，硬学反而费劲。

AI 摘要

论文在Qwen2.5、LLaMA-3和DeepSeek三个系列上发现：用小模型自身生成并通过拒绝采样选取的轨迹，比用更强Oracle模型精炼的高奖励数据，能更有效提升数学推理。Oracle精炼虽修复逻辑，但引入分布偏移，增加小模型适应成本，抵消了逻辑改进的收益。作者提出风格对齐精炼（Style-Aligned Refinement），保留小模型原生轨迹风格同时融入Oracle逻辑修复，降低适应成本并恢复下游效用。该发现挑战了数学推理蒸馏中依赖奖励模型分数选择数据的常规做法。

AI 翻译 · 中文

arXiv: DeepSeekKnowledge distillation from powerful reasoning models is widely used to improve Small Language Models (SLMs) on mathematical reasoning, often assuming that traces with higher reward model scores provide more useful super…

阅读原文