论在策略蒸馏中的位置偏差

On the Position Bias of On-Policy Distillation

精选理由

这篇论文揭示了OPD中后面token质量差的问题,提出IW-OPD加权方案,在AIME-2025上提分6.9,做蒸馏研究的值得一看。

AI 摘要

标准在策略蒸馏(OPD)对所有token均匀加权,但研究发现学生rollout越长,后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能,而仅用后30%几乎学不到东西。基于约束优化视角,提出重要性加权在策略蒸馏(IW-OPD),根据累积偏差动态调整token权重。IW-OPD收敛更快,在AIME-2025基准上性能提升多达6.9分。

AI 翻译 · 中文

标准在策略蒸馏(OPD)对所有token均匀加权,但研究发现学生rollout越长,后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能,而仅用后30%几乎学不到东西。基于约束优化视角,提出重要性加权在策略蒸馏(IW-OPD),根据累积偏差动态调整token权重。IW-OPD收敛更快,在AIME-2025基准上性能提升多达6.9分。

arXiv cs.LGOn-Policy Distillation (OPD) improves the learning efficiency of standard reinforcement learning through dense, token-level supervision from teachers. In the standard KL objective of OPD, token-level losses are uniformly