Dense Supervision, Sparse Updates: 策略蒸馏的稀疏性与几何特性分析

精选理由

这篇论文揭示了OPD更新的稀疏性和几何特性，对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算，同时理解为什么AdamW比SGD更优。建议点开看看实验细节。

AI 摘要

该论文分析了在线策略蒸馏（OPD）在语言和多模态模型中的参数更新特性，发现OPD更新具有稀疏性，主要集中在FFN层，且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的，主要落在源权重接近零的坐标上。研究还发现，密集教师监督下SGD优化器不如AdamW，因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明，OPD并非简单的密集参数重写，而是保留了策略后训练的几何特征。

AI 翻译 · 中文

arXiv cs.LGOn-policy distillation (\textsc{OPD}) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid chang…

阅读原文