11:47arXiv cs.LG@Wenhao Chi, Arkaprava Sinha, Dominick Reilly, Hieu Le, Srijan DasUNIEGO提出分层多教师蒸馏框架,使用9个教师(覆盖自我/他人视角、RGB/深度/骨架模态和4个基础模型)来训练统一编码器。为解决异构教师的不兼容架构和特征几何冲突,框架引入代理模型将不同教师知识翻译到同质化的自我中心空间。第二阶段选择性代理蒸馏(SPD)为每个样本自适应选择正确且自信的代理子集,抑制错误信号。UNIEGO在三个自我中心视频基准(动作识别、视频检索、动作分割)上达到最先进性能。AI模型UNIEGO自我中心视频知识蒸馏表示学习多模态推荐理由:想用多视角多模态数据训练视频理解模型?UNIEGO用代理模型搞定异构教师蒸馏,在三个任务上刷新了纪录。原文
10:47arXiv: DeepSeek@Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan论文在Qwen2.5、LLaMA-3和DeepSeek三个系列上发现:用小模型自身生成并通过拒绝采样选取的轨迹,比用更强Oracle模型精炼的高奖励数据,能更有效提升数学推理。Oracle精炼虽修复逻辑,但引入分布偏移,增加小模型适应成本,抵消了逻辑改进的收益。作者提出风格对齐精炼(Style-Aligned Refinement),保留小模型原生轨迹风格同时融入Oracle逻辑修复,降低适应成本并恢复下游效用。该发现挑战了数学推理蒸馏中依赖奖励模型分数选择数据的常规做法。论文Qwen2.5LLaMA-3DeepSeek知识蒸馏推理模型推荐理由:这篇论文揭穿了一个直觉错误:你以为给小白模型喂“学霸笔记”能变强,结果效果还不如它自己瞎写的解题草稿。原因是学霸的思路和它不匹配,硬学反而费劲。原文
11:11arXiv cs.LG@Mohammed Arif Mainuddin, Najifa Tabassum, Omar Ibne Shahid, Riasat KhanHumP-KD框架提出一种混合不确定性感知多阶段渐进知识蒸馏方法,用于高效火灾分类。在FlameVision(8600张)和Dataset-II(31309张)两个数据集上测试,从Swin-Tiny和ViT-Base两个冻结教师模型蒸馏知识到轻量MobileViT-S学生模型。在Dataset-II上,HumP-KD达到平均F1分数0.9876±0.0063,显著高于MobileViT-S基线(0.9537±0.0351),t检验p=0.0195。学生模型仅4.94M参数、19.01Mb大小,相对于Swin-Tiny参数减少5.7倍,CPU FPS达37.72。论文HumP-KDMobileViT-SSwin-TinyViT-Base知识蒸馏火灾分类推荐理由:直接提升小模型火灾分类精度原文
09:51arXiv cs.AI@Shang Ma, Jisheng Dang, Wencan Zhang, Yifan Zhang, Bimei Wang, Hong Peng, Bin Hu, Qi Tian, Tat-Seng Chua精选研究者提出了一种名为 MODF-SIR 的多智能体协作框架,基于轻量级多模态大语言模型,专门用于社交智能推理。该框架通过知识蒸馏增强训练和推理阶段,能够精确定位多模态社交数据,并提取长尾事件以格式化文本呈现,避免关键信息被噪声淹没。它集成了测试时自适应(TTA)、思维链提示和自反思机制,并利用 LoRA 微调基础模型。在多个基准测试中,仅用约 30% 的训练数据就达到了最先进的结果。代码、演示和模型均已开源。论文多智能体知识蒸馏社交智能推理多模态LoRA推荐理由:社交智能推理是 AI 理解人类互动的关键,MODF-SIR 用轻量模型和蒸馏技术解决了长尾事件被忽略的痛点,做多模态社交分析或人机交互的团队可以直接用开源代码复现。原文
22:42小互@imxiaohu苹果Siri并非由Google的Gemini模型直接驱动,而是使用苹果自研的基础模型。不过,这个自研模型是通过对Gemini模型进行知识蒸馏训练而来。Google的Gemini模型仅在苹果iCloud上提供额外支持,且是苹果定制的版本。此外,Siri不使用Google搜索提供世界知识,而是依赖苹果自己的服务。这一安排让外界感觉Google被苹果“耍了”。行业苹果SiriGemini知识蒸馏AI合作推荐理由:这条信息揭示了苹果与Google在AI合作上的真实关系,做AI模型训练或关注大厂博弈的开发者会感兴趣——苹果用蒸馏技术借力Gemini,但最终保持自主,值得点开看看背后的技术策略。原文
11:00arXiv cs.LG@Mohammadreza Sadeghi, Sareh Soleimani, Zihan Wang, Narges Armanfard本文提出无监督持续聚类(UCC)问题,并引入前向-后向知识蒸馏持续聚类方法(FBCC)。该方法通过持续教师网络和轻量级任务特定学生,在无标签且不存储旧数据的情况下,学习新聚类同时保留已有聚类结构。实验表明,FBCC在四个基准数据集上持续优于现有持续学习方法,显著减少灾难性遗忘。这是首个专门针对无监督持续聚类的研究,解决了该领域缺乏聚类特定目标的问题。论文无监督学习持续学习知识蒸馏聚类灾难性遗忘推荐理由:做无监督学习和持续学习的团队终于有了聚类场景的专用方案——FBCC 不依赖标签和旧数据就能保持聚类结构,做数据流聚类或隐私敏感场景的开发者可以直接参考实验设置。原文
12:20arXiv cs.AI@Lizhi Yang, Junheng Li, Nehar Poddar, Yiling Hou, Gio Huh, Robert Griffin, Georgia Gkioxari, Aaron Ames精选HANDOFF 提出了一种紧凑、直观的接口,用于人形机器人的任务规划与全身控制之间的连接。该接口通过多教师 KL 蒸馏和上下文条件门控机制,将三个互补专家(全身运动跟踪、行走、跌倒恢复)蒸馏成一个混合专家学生模型。在 Unitree G1 机器人上,HANDOFF 实现了与最先进方法相当的行走速度跟踪,并提供了最大的鲁棒操作工作空间之一。此外,通过 VLM 驱动的智能体规划器,无需任务特定数据或控制器微调,即可实现自然语言驱动的任务执行。这项工作为人形机器人在现实世界中的部署提供了更高效、更通用的控制方案。论文人形机器人全身控制知识蒸馏混合专家模型Unitree G1推荐理由:人形机器人开发者终于有了一个更直观、通用的控制接口——HANDOFF 通过蒸馏多个专家模型,让机器人能同时做好行走、操作和跌倒恢复,做机器人全身控制的团队可以直接参考其方法。原文
07:24marktechpost@Asif RazzaqNVIDIA 提出 X-Token,一种投影引导的跨分词器知识蒸馏(KD)方法,解决了 GOLD 方法中的两个结构性缺陷。在 Llama-3.2-1B 模型上,X-Token 将 GSM8k 准确率从 2.56% 提升至 15.54%,并在多个基准测试中平均超越 GOLD 3.82 分。该方法通过投影层对齐教师和学生模型的分词器,实现了更有效的知识迁移。X-Token 为小模型蒸馏大模型知识提供了新思路,尤其适用于资源受限场景。论文知识蒸馏NVIDIALlama-3.2-1BGSM8k跨分词器6 个信源在谈推荐理由:X-Token 解决了知识蒸馏中分词器不匹配的痛点,做模型压缩或边缘部署的团队可以直接用这个思路提升小模型推理能力,值得关注。原文
07:39IT之家(博客/媒体)78°科技媒体 The Information 爆料苹果与谷歌在 AI 方面的合作细节。苹果采用知识蒸馏技术,基于谷歌 Gemini 模型训练轻量端侧 AI 模型,使其能在 Apple 设备本地运行,以提升响应速度和保护隐私。同时,为减轻服务器压力,iOS 27 的部分 Siri 请求将转向 Google Cloud 调用 Gemini 模型处理。苹果还批准采用 NVIDIA 的机密计算技术,在云端处理时加密数据,以平衡隐私与性能。此举表明苹果在 AI 部署上坚持隐私优先,同时借助外部力量弥补自身算力不足。AI产品苹果Gemini知识蒸馏隐私计算Siri7 个信源在谈推荐理由:苹果终于把 Gemini 用在了自家 AI 上——用蒸馏技术做本地模型,同时把部分 Siri 请求外包给谷歌云。做隐私合规或苹果生态开发的团队值得关注,这可能是未来端云混合 AI 的样板。原文
11:56arXiv: DeepSeek@Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho精选72°该研究提出了首个系统化框架,将混合专家模型(MoE)转换为标准全稠密架构。通过专家评分、选择、分组并拼接成稠密前馈网络,再通过知识蒸馏从MoE教师模型精炼。在Qwen3-30B-A3B上评估了7种评分、5种分组和2种幅度缩放方法,共350种配置。发现评分方法影响最大,其提出的多样性感知评分在多个模型上优于先前方法。在参数匹配控制下,MoE转稠密比稠密到稠密剪枝平均下游准确率提升6.3个百分点,训练速度快1.6倍。论文模型压缩知识蒸馏混合专家模型稠密模型Qwen3推荐理由:这个框架解决了MoE模型在内存受限设备上部署的痛点,做模型压缩和边缘部署的团队可以直接参考其方法,比传统剪枝效果更好且训练更快。原文
12:16arXiv: DeepSeek@Guanghui Wang, Kaiwen Lv Kacuila, Zhiyong Yang, Zitai Wang, Jin-Wen Wu, Longtao Huang, Qianqian Xu, Qingming Huang精选72°这篇论文发现,在 LLM 知识蒸馏中,混合使用教师模型的硬标签(采样 token)和软标签(完整分布)比单独使用任何一种效果更好。作者提出 Bridge-Garden 分解理论,将生成步骤分为“桥”(需精确 token)和“花园”(可灵活选择)两类,硬标签擅长处理桥,软标签擅长处理花园,混合策略能减少训练与推理之间的暴露偏差。基于该理论开发的混合监督方法在 7 组师生模型(含 Qwen、Llama、Gemma、DeepSeek)上优于现有基线,同时将训练成本降低 9.7 倍。代码已开源。论文知识蒸馏暴露偏差混合标签模型压缩Qwen/Llama/Gemma/DeepSeek推荐理由:做 LLM 蒸馏的团队终于有了理论指导——Bridge-Garden 理论解释了为什么混合标签有效,并且直接给出了可落地的方案,训练成本还降了 9.7 倍,建议做模型压缩的开发者点开看看。原文
11:25arXiv cs.LG@Taiming Lu, Zhuang Liu精选72°这篇论文挑战了知识蒸馏中“强教师才能教出好学生”的传统观念。研究发现,在LLM预训练阶段,即使使用较小或训练不足的弱教师模型,通过合理混合语言建模和蒸馏损失,也能提升更大的学生模型。相反,更强的教师(更多参数或更多训练数据)可能导致蒸馏收益饱和甚至下降。此外,蒸馏在提升泛化能力(如分布外和下游任务表现)方面比在领域内拟合更有效。这些结果颠覆了蒸馏预训练必须依赖强教师的普遍认知。论文知识蒸馏LLM预训练弱到强蒸馏泛化能力损失函数设计推荐理由:做LLM预训练或知识蒸馏的团队,这篇论文直接挑战了“教师越强越好”的默认假设,看完可能会重新设计你的蒸馏策略,值得细读。原文
10:02arXiv cs.LG@Vincent C. Brockers, Roman D. Ventzke, Valentin Neuhaus, Belén Hidalgo-Ogalde, Viola Priesemann本文研究了神经网络中的“潜意识学习”现象,即学生模型通过教师模型在任务无关的输入-输出对上进行蒸馏,从而获得任务相关知识或偏差。先前研究认为这需要师生初始化高度匹配,但本文证明只需兼容的输出头即可实现。在MNIST数据集上,通过将输出分为辅助头(处理噪声)和分类头,即使在隐藏层随机初始化、增减层或改变架构(如MLP到CNN)的情况下,潜意识学习仍会发生。兼容的辅助头能传递可恢复的教师信号,使学生表征更接近教师。当分类头也兼容时,仅用噪声训练的学生模型可接近甚至匹配教师的任务性能。本文还建立了理论解释机制并推导了失效的上界,将潜意识学习从意外现象转化为可预测的机制。论文知识蒸馏神经网络潜意识学习表征对齐MNIST推荐理由:这篇论文揭示了神经网络蒸馏中一个反直觉但关键的机制——潜意识学习并不依赖初始化匹配,而是由输出头兼容性驱动。做模型压缩、知识蒸馏或研究表征对齐的研究者值得细读,它可能改变你对蒸馏数据选择的认知。原文
10:35arXiv cs.AI@Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo精选该研究提出了一种名为 LIFT and PLACE 的知识蒸馏框架,用于训练轻量级扩散模型。LIFT 将蒸馏过程分解为粗对齐和细调优两个阶段,先让学生模型学习教师模型的整体分布,再处理细节。PLACE 则通过分组自适应系数处理空间非均匀误差,进一步提升了蒸馏效果。实验表明,该方法在图像/潜空间、U-Net/DiT 骨干网络、条件/无条件生成等场景下均有效,甚至在极端压缩(学生模型仅 1.3M 参数,为教师的 1.6%)时,传统蒸馏方法失效(FID 高达 50-200+),而新方法仍能稳定收敛并达到 FID 15.73。论文知识蒸馏扩散模型模型压缩LIFTPLACE推荐理由:做扩散模型轻量化或模型压缩的团队,终于有了一个在极端压缩下仍能稳定训练的蒸馏方案,值得直接复现实验。原文
14:29arXiv cs.AI@Aditya Tanna, Nassim Bouarour, Mohamed Bouadi, Vinay Kumar Sankarapu, Pratinav Seth精选表格基础模型在健康数据集上表现优异,但高推理成本和基础设施需求限制了实际应用。研究者提出通过知识蒸馏将预测能力转移至轻量表格模型,并针对上下文表格模型在推理时依赖训练集导致的上下文泄露问题,采用分层折叠教师标注策略。在19个医疗数据集、6个教师模型、4个学生模型家族及多教师集成实验中,蒸馏学生模型保留了教师AUC的至少90%,部分甚至超越教师,同时CPU推理速度提升至少26倍,且保持校准性和公平性。多教师平均并未持续优于最佳单教师。该研究为推理受限的健康场景部署高质量预测提供了可行路径。论文表格基础模型知识蒸馏健康数据推理效率公平性推荐理由:医疗AI团队终于有了低成本部署高精度表格模型的方案——蒸馏后模型保留90%性能且快26倍,做健康数据预测的开发者可以直接用。原文
07:26AK@_akhaliq75°Apple 发布了一项关于 On-Policy Distillation 的研究,探讨了这种知识蒸馏方法在哪些场景下有效、哪些场景下有害,并分析了背后的原因。该研究旨在帮助 AI 开发者更好地理解和应用蒸馏技术,以优化模型性能。关键发现包括:On-Policy Distillation 在特定任务中能显著提升学生模型的表现,但在某些情况下可能导致性能下降。研究还揭示了蒸馏过程中数据分布和模型容量等因素的影响。这项工作为 AI 训练提供了实用指导,尤其适用于资源受限的部署场景。论文知识蒸馏On-Policy Distillation模型优化AppleAI 训练推荐理由:Apple 这篇研究把 On-Policy Distillation 的坑和甜点都讲透了,做模型压缩或部署的团队可以直接参考,避免踩坑。原文
19:12arXiv: DeepSeek@Zizhao Chen, Yuying Li, Siting Lin, Lianxi Wang精选75°大语言模型在复杂推理中常出现“过度思考”问题,导致推理链过长、效率低下。现有强化学习方法通过设计复杂奖励函数压缩推理链,但高质量样本在探索空间中极为稀疏,形成采样瓶颈。受认知科学启发,研究者从理论上证明,参考答案引导的后验分布比先验分布具有更高期望效用,可突破高质量样本的采样瓶颈。为此,他们提出VPG-EA框架,将高效推理形式化为变分推断问题,引入效率感知的证据下界作为理论基础。该框架采用参数共享的双流架构实例化后验分布和先验策略,通过交叉视图评估过滤伪高效路径,再通过变分蒸馏将后验的高效模式单向迁移至先验策略。在DeepSeek-R1-Distill-Qwen-1.5B和7B规模上的实验显示,VPG-EA在综合效率指标ε³上分别比最强基线提升8.73%和12.37%。论文推理模型效率优化变分推断过度思考知识蒸馏推荐理由:这篇论文为LLM推理效率问题提供了理论严谨且可落地的解决方案,做推理优化或模型压缩的研究者可以直接参考其变分蒸馏方法,值得细读。原文
19:12arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard精选75°该论文提出了一种新的语言模型后训练原则:将稀缺的标注验证数据优先用于最强模型(教师)进行稀疏奖励强化学习(如GRPO),然后通过稠密奖励蒸馏(如OPD)将行为迁移到小模型(学生)。实验表明,在固定学生模型大小(Qwen3-1.7B)下,先对8B教师进行RL再蒸馏,效果优于直接在学生上运行GRPO。该原则强调避免在未准备好的策略上使用稀缺数据,而是通过“稀疏奖励发现→稠密迁移→学生侧稀疏奖励”的流程优化资源分配。论文后训练强化学习知识蒸馏奖励设计Qwen3推荐理由:这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署,做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。原文