Distillation

§ 01综述

Distillation（知识蒸馏）是一种模型压缩与知识迁移技术，通过让小型学生模型模仿大型教师模型的输出，被广泛应用于深度学习优化。近期研究不仅深入探索了 on-policy 自蒸馏的机制与局限性，还对数据集蒸馏的有效性提出了重新评估，同时拓展了蒸馏在机器人、视觉语言模型等领域的应用。

Distillation 近期进展

On-Policy Self-Distillation 中的“思维崩塌”现象

诊断与缓解On-Policy Self-Distillation中的Thinking Collapse一文（arXiv 2607.10805）系统分析了 on-policy 自蒸馏中模型输出多样性急剧下降的问题，并提出通过采样演示物（sampled demonstrations）来缓解这一“思维崩塌”（thinking collapse）。该研究指出，自蒸馏虽然能提升单次输出质量，但会严重削弱生成多样性，对需要探索的任务构成隐患。

弱到强泛化与 Apple 的 On-Policy 蒸馏研究

弱到强泛化通过Direct On-Policy Distillation（arXiv 2607.05394）展示了 on-policy 蒸馏在弱监督到强泛化场景中的潜力。此外，Apple 发布 On-Policy Distillation 研究：揭示其利弊与原因通过系统实验总结了 on-policy 蒸馏在输出质量提升与多样性损失之间的权衡，为实际部署提供了参考。

数据集蒸馏的再审视：蒸馏集未必优于核心集

Rethinking Dataset Distillation: 蒸馏集未必优于核心集（arXiv 2606.18209）挑战了数据集蒸馏的传统认知。该工作通过严格对比实验发现，精心选择的核心集（coreset）在许多任务上能达到甚至超过蒸馏集的性能，提示研究人员需更谨慎地评估蒸馏带来的实际收益。

当前焦点与观察点

当前蒸馏研究的焦点集中于 on-policy 自蒸馏的多样性问题与数据集蒸馏的有效性争议。多项研究指出，自蒸馏容易导致输出同质化，可能削弱模型的鲁棒性；同时，数据集蒸馏的额外复杂度是否值得仍存疑问。此外，蒸馏技术在机器人轨迹追踪（如 Closed-Loop Trace Distillation）和扩散模型加速（Dual-Rate Diffusion）等新领域展现了潜力，但核心机制（如向量蒸馏 Subliminal Learning）仍需深入理解。整体来看，蒸馏正从单纯的知识迁移工具演化为一个需要权衡质量、多样性与效率的复杂课题。

§ 02相关报道10 条在档

§ 03邻近话题