论文精选

推理痕迹坍塌:微调如何让推理模型失去显式推理能力

Reasoning-Trace Collapse: Evaluating the Loss of Explicit Reasoning During Fine-Tuning

精选理由

做推理模型微调的团队必须警惕:只看答案正确率会误判模型能力,这篇论文给出了评估和缓解方案,建议做模型对齐的开发者仔细阅读。

AI 摘要

论文揭示了一个关键问题:推理模型在微调时,若使用不含推理痕迹的普通指令-回复数据,会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案,但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架,将答案正确性与推理痕迹有效性分离,测量有效、空、缺失和截断的推理痕迹。实验发现,标准监督微调会迅速抑制有效推理痕迹,而仅看答案正确率会掩盖这一失败。论文还表明,简单的损失掩码策略可以显著缓解坍塌,无需教师生成的推理痕迹。

AI 翻译 · 中文

论文揭示了一个关键问题:推理模型在微调时,若使用不含推理痕迹的普通指令-回复数据,会导致“推理痕迹坍塌”——模型虽能给出看似合理的最终答案,但中间推理步骤的结构性有效性大幅下降。研究者提出了一个结构评估框架,将答案正确性与推理痕迹有效性分离,测量有效、空、缺失和截断的推理痕迹。实验发现,标准监督微调会迅速抑制有效推理痕迹,而仅看答案正确率会掩盖这一失败。论文还表明,简单的损失掩码策略可以显著缓解坍塌,无需教师生成的推理痕迹。

arXiv cs.LGExplicit reasoning models are trained to produce intermediate reasoning traces before final answers, but downstream fine-tuning is often performed on ordinary instruction-response data that contains no such traces. We sh