精选理由
做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验,降低了蒸馏对标注数据的依赖,数学推理场景效果显著,值得在自蒸馏框架中尝试。
本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法,用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息(如参考答案),而 SGSD 从经验技能库中检索技能-错误对,构建多教师池,通过验证器判断教师极性,并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上,SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%,比 OPSD 提升 1.7%,且对先验信息的假设更弱。代码已开源。
AI 翻译 · 中文
本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法,用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息(如参考答案),而 SGSD 从经验技能库中检索技能-错误对,构建多教师池,通过验证器判断教师极性,并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上,SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%,比 OPSD 提升 1.7%,且对先验信息的假设更弱。代码已开源。
On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes into dense token-level supervision. Existing methods usually assume trusted PI, s…