Dense Supervision, Sparse Updates: 策略蒸馏的稀疏性与几何特性分析

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

精选理由

这篇论文揭示了OPD更新的稀疏性和几何特性,对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算,同时理解为什么AdamW比SGD更优。建议点开看看实验细节。

AI 摘要

该论文分析了在线策略蒸馏(OPD)在语言和多模态模型中的参数更新特性,发现OPD更新具有稀疏性,主要集中在FFN层,且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的,主要落在源权重接近零的坐标上。研究还发现,密集教师监督下SGD优化器不如AdamW,因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明,OPD并非简单的密集参数重写,而是保留了策略后训练的几何特征。

AI 翻译 · 中文

该论文分析了在线策略蒸馏(OPD)在语言和多模态模型中的参数更新特性,发现OPD更新具有稀疏性,主要集中在FFN层,且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的,主要落在源权重接近零的坐标上。研究还发现,密集教师监督下SGD优化器不如AdamW,因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明,OPD并非简单的密集参数重写,而是保留了策略后训练的几何特征。

arXiv cs.LGOn-policy distillation (\textsc{OPD}) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid chang