医疗CoT蒸馏:答案准确率提升,推理步骤错误率反升

Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation

精选理由

做医疗AI或模型蒸馏的团队注意了:答案准不等于推理对,蒸馏后步骤错误率反而飙升,临床场景下这是致命隐患。建议点开看看审计方法,避免踩坑。

AI 摘要

一项针对医疗问答链式推理(CoT)蒸馏的研究发现,蒸馏后的小模型在最终答案准确率上显著提升(MedQA-USMLE从74.7%到84.4%),但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型,蒸馏自DeepSeek-V3系列教师模型,并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于:当答案选项简短、无法约束完整推理时,学生模型能模仿专家风格的推理过程,但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒,在医疗等高风险领域,仅用答案准确率评估蒸馏模型是不够的,推理步骤的事实性必须单独审计。

AI 翻译 · 中文

一项针对医疗问答链式推理(CoT)蒸馏的研究发现,蒸馏后的小模型在最终答案准确率上显著提升(MedQA-USMLE从74.7%到84.4%),但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型,蒸馏自DeepSeek-V3系列教师模型,并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于:当答案选项简短、无法约束完整推理时,学生模型能模仿专家风格的推理过程,但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒,在医疗等高风险领域,仅用答案准确率评估蒸馏模型是不够的,推理步骤的事实性必须单独审计。

arXiv: DeepSeekChain-of-thought (CoT) distillation trains a smaller model to imitate a teacher's reasoning trace, but it is typically evaluated by final-answer metrics including accuracy. We ask whether gains in answer quality are acco