知识蒸馏·general

知识蒸馏

别名
首次出现
2026-05-22
最近出现
2026-06-11
累计提及
15
§ 01综述

知识蒸馏作为模型压缩和性能提升的关键技术,近期在学术界和工业界迎来一系列重要进展。该方法通过让小型学生模型学习大型教师模型的知识,已广泛应用于大语言模型(LLM)和多模态模型的部署优化中。

近期主要进展

  • 跨分词器蒸馏新方法:NVIDIA 提出 X-Token 框架,通过投影引导实现跨分词器的知识蒸馏,在 Llama-3.2-1B 上平均超越现有方法 GOLD 3.82 分,解决了不同分词器带来的语义对齐难题。(NVIDIA 推出 X-Token:跨分词器知识蒸馏)
  • MoE 转稠密蒸馏框架:DeepSeek 团队发布首个系统框架,将混合专家模型(MoE)高效蒸馏为全稠密架构,为资源受限场景提供新选择。(MoE转稠密模型:首个系统框架将混合专家模型蒸馏为全稠密架构)
  • 教师模型选择的新见解:研究揭示,在 LLM 预训练蒸馏中,强教师并非必需,中等规模教师也能取得优异效果,挑战了传统认知。(LLM预训练蒸馏新发现:强教师并非必需)
  • 苹果探索云端协同蒸馏:苹果疑似通过 Gemini 训练本地 AI 模型,并将部分 Siri 请求转向谷歌云,表明知识蒸馏在隐私保护和性能平衡中的关键作用。(苹果 iOS 27 爆料:用 Gemini 训练本地 AI)
  • 理论创新:混合硬软标签:Bridge-Garden 理论提出同时利用硬标签和软标签的优势,显著提升蒸馏效果。(Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果)
  • 当前焦点与未来观察

    业界正从单纯的性能压缩转向更精细的蒸馏策略:跨架构(MoE→稠密、跨分词器)、教师适配、以及理论与实用结合。同时,蒸馏在端侧 AI 部署(如苹果案例)和垂直领域(如表格基础模型、扩散模型)的应用持续扩大。未来,动态蒸馏策略、多教师蒸馏的融合以及蒸馏中噪声处理(如潜意识学习理论)或成为突破方向。

    § 02相关报道10 条在档
    1. 01
      MODF-SIR:多智能体全模态蒸馏框架,提升社交智能推理
      arXiv cs.AI
    2. 02
      苹果Siri由自研模型驱动,但通过Gemini蒸馏训练
      小互
    3. 03
      FBCC:无监督持续聚类新方法,通过前向-后向知识蒸馏克服灾难性遗忘
      arXiv cs.LG
    4. 04
      HANDOFF:通过蒸馏互补教师实现人形机器人全身控制
      arXiv cs.AI
    5. 05
      NVIDIA 推出 X-Token:跨分词器知识蒸馏,在 Llama-3.2-1B 上超越 GOLD 3.82 平均分
      marktechpost
    6. 06
      苹果 iOS 27 爆料:用 Gemini 训练本地 AI,部分 Siri 请求转向谷歌云
      IT之家
    7. 07
      MoE转稠密模型:首个系统框架将混合专家模型蒸馏为全稠密架构
      arXiv: DeepSeek
    8. 08
      Bridge-Garden 理论:混合硬软标签提升 LLM 蒸馏效果
      arXiv: DeepSeek
    9. 09
      LLM预训练蒸馏新发现:强教师并非必需
      arXiv cs.LG
    10. 10
      噪声中学习:潜意识学习为何有效及何时失效
      arXiv cs.LG
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E7%9F%A5%E8%AF%86%E8%92%B8%E9%A6%8F