10:34arXiv cs.LG@Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi HanViGOS是一种针对多模态大语言模型(MLLM)的后训练框架,采用解耦感知与推理的自蒸馏方法(OPSD)。学生模型先生成视觉描述,再基于此进行推理,避免直接利用文本目标产生捷径。实验在通用视觉-语言、专家推理、视觉数学、空间定位和视觉-语言先验五类基准上验证,ViGOS在易出现捷径的场景中显著提升了图像依赖行为。论文ViGOSMLLMOPSD多模态自蒸馏推荐理由:这篇论文提出了ViGOS,专门解决多模态模型自蒸馏时只看文本不看图的毛病,在多个视觉语言基准上有效果。原文
11:03arXiv cs.LG@Semih Kara, Oğuzhan Ersoy精选该研究探讨了自蒸馏中上下文设计的关键作用,通过训练求解器接收冻结批评者的反馈,比较了三种条件:二元奖励、参考解决方案和步骤对齐批评。步骤对齐批评在Avg@12指标上比GRPO高出16.11分,比参考解决方案条件高出5.27分。分析表明,步骤对齐反馈仅针对推理失败的token,保留正确行为,而参考解决方案迫使模型在每个token上改变行为,导致效率降低。研究揭示了反馈与求解器推理的结构对齐是自蒸馏有效性的关键驱动因素。论文自蒸馏反馈对齐推理模型GRPO批评者推荐理由:做自蒸馏或强化学习的研究者会发现,步骤对齐反馈比传统奖励信号更高效,直接提升模型推理质量,值得在实验中尝试这种上下文设计。原文
11:27arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao精选本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法,用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息(如参考答案),而 SGSD 从经验技能库中检索技能-错误对,构建多教师池,通过验证器判断教师极性,并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上,SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%,比 OPSD 提升 1.7%,且对先验信息的假设更弱。代码已开源。论文推理模型自蒸馏数学推理技能库LLM推荐理由:做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验,降低了蒸馏对标注数据的依赖,数学推理场景效果显著,值得在自蒸馏框架中尝试。原文
10:46arXiv: DeepSeek@Xiaogeng Liu, Xinyan Wang, Yingzi Ma, Yechao Zhang, Chaowei Xiao精选论文研究了在推理任务中,教师模型token的可靠性并非均匀分布,而是与序列中的位置强相关。作者提出分支可行性诊断方法,发现位置得分是预测教师token可靠性的最强指标(AUROC达0.83),而局部不确定性得分效果很差。基于此,提出位置加权在线策略自蒸馏(PW-OPSD),在保持原有训练框架的同时,对越靠后的token赋予更高权重。在Qwen3-4B上,PW-OPSD使AIME 2024和2025的Avg@12分别提升1.0和1.1分,在DeepSeek-R1-Distill-Llama-8B和Olmo-3-7B-Think上也取得一致改进。该方法无需额外教师计算,直接利用轨迹结构提升蒸馏效果。论文推理模型自蒸馏位置加权教师模型token可靠性推荐理由:做推理模型蒸馏的团队终于有了一个简单有效的改进方向——不用改架构,只需调整token权重就能提升1分以上,值得在自家模型上复现。原文
14:25arXiv cs.AI@Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu精选多模态大模型在细粒度视觉理解任务中常因无法聚焦关键证据而失败,而非缺乏局部识别能力。研究者提出Vision-OPD框架,通过区域到全局的自蒸馏方法,让模型从裁剪后的局部图像(教师)中学习,并迁移到全图(学生)策略上。该方法无需外部教师模型、标注数据或推理时工具,仅通过最小化教师与学生间token级分布差异来提升性能。在多个细粒度视觉理解基准上,Vision-OPD模型性能优于或媲美更大规模的开源、闭源及“思考+图像”智能体模型。论文多模态大模型细粒度视觉理解自蒸馏区域到全局Vision-OPD推荐理由:多模态模型开发者常头疼的“看不清细节”问题,Vision-OPD用自蒸馏给出了一个轻量解法——不用外部模型或标注,直接让模型学会“自动放大”关键区域。做细粒度视觉理解或MLLM优化的团队值得关注。原文
19:12arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang精选本文研究了在线策略自蒸馏(OPSD)方法,即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题:教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此,他们提出OGLS-SD框架,利用可验证的结果奖励对比成功与失败的在线轨迹,并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导,在多个基准上稳定了自蒸馏过程并提升了推理性能。论文自蒸馏推理模型logit校准结果引导LLM推荐理由:如果你在做LLM推理优化或自蒸馏训练,OGLS-SD解决了教师-学生分布不匹配的痛点,用结果奖励校准logits的思路直接可复用,值得仔细看方法细节。原文
19:11arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar该研究提出了一种无需训练的诊断框架,通过分析每token、每问题、每教师的梯度对齐度,揭示了on-policy蒸馏的有效条件。研究发现:在模型错误回答时蒸馏信号更有效,正确回答时信号噪声大;最优蒸馏配置依赖于学生模型能力和任务类型,不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术,为优化蒸馏策略提供了理论依据。论文推理模型蒸馏/训练自蒸馏推荐理由:该研究通过细粒度分析挑战了蒸馏实践中默认假设,为选择教师模型和蒸馏配置提供了理论指导,对大规模推理模型训练具有实际参考价值。原文