知识蒸馏 · AI 话题观测

§ 01综述

知识蒸馏是一种模型压缩技术，通过让小型学生模型模仿大型教师模型的输出分布或中间表征，实现知识迁移，从而在保持性能的同时降低计算成本。近年来，知识蒸馏在大语言模型、多模态学习和机器人控制等领域持续演进，同时暴露出一些隐藏风险。

知识蒸馏近期进展

从 DeepSeek-R1 蒸馏到 Qwen2.5-7B 的数学推理案例：研究人员在约翰·奥布莱恩数学竞赛中验证了将强推理模型 DeepSeek-R1 的知识蒸馏到较小模型 Qwen2.5-7B 的有效性，但发现蒸馏效果严重依赖数据质量与教师模型的选择。原文标题

弱到强泛化通过 Direct On-Policy Distillation：一项新研究提出直接在线策略蒸馏方法，使弱学生模型能从强教师模型中持续学习并泛化到未见任务，为知识蒸馏的在线交互场景提供了新思路。原文标题

质量-效用悖论：高奖励数据损害小模型数学推理：研究发现，在知识蒸馏中，使用高奖励数据训练小模型反而会降低其数学推理能力，揭示了奖励信号与蒸馏效果之间的非单调关系，挑战了传统数据筛选策略。原文标题

多模态蒸馏与机器人控制新范式：UNIEGO 框架将知识蒸馏应用于统一自我中心视频表示学习，而 HANDOFF 则通过蒸馏互补教师实现人形机器人全身控制，表明知识蒸馏正从单模态向多模态、从感知到决策控制扩展。原文标题, 原文标题

当前焦点与观察点

当前知识蒸馏的研究焦点包括：自生成问答训练中暴露的隐藏脆弱性（学生模型可能继承教师偏差或产生虚假关联）；苹果 Siri 通过 Gemini 蒸馏训练的实践证明工业界对高效模型压缩的持续需求；以及无监督持续聚类中的前向-后向知识蒸馏方法。此外，质量-效用悖论等结果提醒研究者需谨慎设计蒸馏策略，避免盲目追求高奖励数据。整体上，知识蒸馏正朝着更精细、更鲁棒的方向发展，同时面临可解释性和安全性的挑战。

§ 02相关报道10 条在档

§ 03邻近话题