推理痕迹坍塌：微调如何让推理模型失去显式推理能力

精选理由

做推理模型微调的团队必须警惕：只看答案正确率会误判模型能力，这篇论文给出了评估和缓解方案，建议做模型对齐的开发者仔细阅读。

AI 摘要

论文揭示了一个关键问题：推理模型在微调时，若使用不含推理痕迹的普通指令-回复数据，会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案，但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架，将答案正确性与推理痕迹有效性分离，测量有效、空、缺失和截断的推理痕迹。实验发现，标准监督微调会迅速抑制有效推理痕迹，而仅看答案正确率会掩盖这一失败。论文还表明，简单的损失掩码策略可以显著缓解坍塌，无需教师生成的推理痕迹。

AI 翻译 · 中文

arXiv cs.LGExplicit reasoning models are trained to produce intermediate reasoning traces before final answers, but downstream fine-tuning is often performed on ordinary instruction-response data that contains no such traces. We sh…

阅读原文