10:47arXiv cs.LG@Yan Xie, Sijie Zhu, Tiansheng Wen, Bo Chen, Yifei Wang标准在策略蒸馏(OPD)对所有token均匀加权,但研究发现学生rollout越长,后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能,而仅用后30%几乎学不到东西。基于约束优化视角,提出重要性加权在策略蒸馏(IW-OPD),根据累积偏差动态调整token权重。IW-OPD收敛更快,在AIME-2025基准上性能提升多达6.9分。论文OPDIW-OPDAIME-2025推理模型位置偏差推荐理由:这篇论文揭示了OPD中后面token质量差的问题,提出IW-OPD加权方案,在AIME-2025上提分6.9,做蒸馏研究的值得一看。原文