10:16arXiv cs.AI@Daniel Scalena, Sara Candussio, Luca Bortolussi, Elisabetta Fersini, Malvina Nissim, Gabriele Sarti该研究通过早期退出方法估计链式推理中每一步的因果重要性,发现推理过程存在一个“承诺边界”——模型在单个步骤中从临时猜测突然转向稳定、高置信度的最终答案。此边界之后的所有推理步骤(称为“表观CoT”)对最终答案概率无影响。利用注意力探针,研究人员能从中间步骤高精度线性解码答案形成阶段,并泛化到未见任务。基于此信号,模型可在承诺边界提前退出推理块,平均缩短55%的推理链长度,且性能几乎不受影响。论文推理模型链式推理早退策略因果重要性注意力探针推荐理由:这项研究揭示了CoT推理中大量步骤是“无用功”,做推理模型优化或长链推理应用的开发者可以直接用早退策略节省计算成本,值得关注。原文
11:55arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu一项针对医疗问答链式推理(CoT)蒸馏的研究发现,蒸馏后的小模型在最终答案准确率上显著提升(MedQA-USMLE从74.7%到84.4%),但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型,蒸馏自DeepSeek-V3系列教师模型,并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于:当答案选项简短、无法约束完整推理时,学生模型能模仿专家风格的推理过程,但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒,在医疗等高风险领域,仅用答案准确率评估蒸馏模型是不够的,推理步骤的事实性必须单独审计。论文链式推理模型蒸馏医疗QA推理审计DeepSeek推荐理由:做医疗AI或模型蒸馏的团队注意了:答案准不等于推理对,蒸馏后步骤错误率反而飙升,临床场景下这是致命隐患。建议点开看看审计方法,避免踩坑。原文