论在策略蒸馏中的位置偏差

精选理由

这篇论文揭示了OPD中后面token质量差的问题，提出IW-OPD加权方案，在AIME-2025上提分6.9，做蒸馏研究的值得一看。

AI 摘要

标准在策略蒸馏（OPD）对所有token均匀加权，但研究发现学生rollout越长，后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能，而仅用后30%几乎学不到东西。基于约束优化视角，提出重要性加权在策略蒸馏（IW-OPD），根据累积偏差动态调整token权重。IW-OPD收敛更快，在AIME-2025基准上性能提升多达6.9分。

AI 翻译 · 中文

arXiv cs.LGOn-Policy Distillation (OPD) improves the learning efficiency of standard reinforcement learning through dense, token-level supervision from teachers. In the standard KL objective of OPD, token-level losses are uniformly…

阅读原文