№知识蒸馏·general
知识蒸馏
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-11
- 累计提及
- 15
§ 01综述
知识蒸馏作为模型压缩和性能提升的关键技术,近期在学术界和工业界迎来一系列重要进展。该方法通过让小型学生模型学习大型教师模型的知识,已广泛应用于大语言模型(LLM)和多模态模型的部署优化中。
近期主要进展
跨分词器蒸馏新方法:NVIDIA 提出 X-Token 框架,通过投影引导实现跨分词器的知识蒸馏,在 Llama-3.2-1B 上平均超越现有方法 GOLD 3.82 分,解决了不同分词器带来的语义对齐难题。(NVIDIA 推出 X-Token:跨分词器知识蒸馏)
MoE 转稠密蒸馏框架:DeepSeek 团队发布首个系统框架,将混合专家模型(MoE)高效蒸馏为全稠密架构,为资源受限场景提供新选择。(MoE转稠密模型:首个系统框架将混合专家模型蒸馏为全稠密架构)
教师模型选择的新见解:研究揭示,在 LLM 预训练蒸馏中,强教师并非必需,中等规模教师也能取得优异效果,挑战了传统认知。(LLM预训练蒸馏新发现:强教师并非必需)
苹果探索云端协同蒸馏:苹果疑似通过 Gemini 训练本地 AI 模型,并将部分 Siri 请求转向谷歌云,表明知识蒸馏在隐私保护和性能平衡中的关键作用。(苹果 iOS 27 爆料:用 Gemini 训练本地 AI)
理论创新:混合硬软标签:Bridge-Garden 理论提出同时利用硬标签和软标签的优势,显著提升蒸馏效果。(Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果)
当前焦点与未来观察
业界正从单纯的性能压缩转向更精细的蒸馏策略:跨架构(MoE→稠密、跨分词器)、教师适配、以及理论与实用结合。同时,蒸馏在端侧 AI 部署(如苹果案例)和垂直领域(如表格基础模型、扩散模型)的应用持续扩大。未来,动态蒸馏策略、多教师蒸馏的融合以及蒸馏中噪声处理(如潜意识学习理论)或成为突破方向。