医疗CoT蒸馏：答案准确率提升，推理步骤错误率反升

精选理由

做医疗AI或模型蒸馏的团队注意了：答案准不等于推理对，蒸馏后步骤错误率反而飙升，临床场景下这是致命隐患。建议点开看看审计方法，避免踩坑。

AI 摘要

一项针对医疗问答链式推理（CoT）蒸馏的研究发现，蒸馏后的小模型在最终答案准确率上显著提升（MedQA-USMLE从74.7%到84.4%），但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型，蒸馏自DeepSeek-V3系列教师模型，并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于：当答案选项简短、无法约束完整推理时，学生模型能模仿专家风格的推理过程，但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒，在医疗等高风险领域，仅用答案准确率评估蒸馏模型是不够的，推理步骤的事实性必须单独审计。

AI 翻译 · 中文

arXiv: DeepSeekChain-of-thought (CoT) distillation trains a smaller model to imitate a teacher's reasoning trace, but it is typically evaluated by final-answer metrics including accuracy. We ask whether gains in answer quality are acco…

阅读原文