10:09arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang流匹配(Flow Matching)存在暴露偏差,现有缓解方法依赖静态约束。本文提出DEFAR框架,包含抗漂移修正(ADR)和频率补偿(FC)两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向,FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上,DEFAR优于先前基线,且具有良好的可扩展性与推理鲁棒性。论文Flow MatchingDEFAR暴露偏差自修正图像生成推荐理由:这篇论文让模型靠偏差自己修正偏差,DEFAR在CIFAR和ImageNet上都能超过之前的方案,还更稳。原文
12:16arXiv: DeepSeek@Guanghui Wang, Kaiwen Lv Kacuila, Zhiyong Yang, Zitai Wang, Jin-Wen Wu, Longtao Huang, Qianqian Xu, Qingming Huang精选72°这篇论文发现,在 LLM 知识蒸馏中,混合使用教师模型的硬标签(采样 token)和软标签(完整分布)比单独使用任何一种效果更好。作者提出 Bridge-Garden 分解理论,将生成步骤分为“桥”(需精确 token)和“花园”(可灵活选择)两类,硬标签擅长处理桥,软标签擅长处理花园,混合策略能减少训练与推理之间的暴露偏差。基于该理论开发的混合监督方法在 7 组师生模型(含 Qwen、Llama、Gemma、DeepSeek)上优于现有基线,同时将训练成本降低 9.7 倍。代码已开源。论文知识蒸馏暴露偏差混合标签模型压缩Qwen/Llama/Gemma/DeepSeek推荐理由:做 LLM 蒸馏的团队终于有了理论指导——Bridge-Garden 理论解释了为什么混合标签有效,并且直接给出了可落地的方案,训练成本还降了 9.7 倍,建议做模型压缩的开发者点开看看。原文