13:46
arXiv cs.AI@Xinlei Yu, Gen Li, Qingyi Si, Guibin Zhang, Yuqi Xu, Congcong Wang, Shuai Dong, Kaiwen Tuo, Xiangyu Zeng, Kaituo Feng, Qunzhong Wang, Yang Shi, Xiaobin Hu, Xiangyu Yue, Jiaqi Wang, Shuicheng Yan DOPD是一种advantage-aware的双重蒸馏范式,通过动态路由令牌级监督信号,在特权教师和特权学生策略之间进行分配,缓解了传统同策略蒸馏中的特权幻觉问题。实验在LLM(如GPT-2)和VLM(如CLIP)上验证,结果显示DOPD在稳定性和鲁棒性等指标上持续优于Vanilla OPD。
推荐理由:这篇论文提出了一种新蒸馏方法DOPD,通过分令牌监督解决特权幻觉,在LLM和VLM上效果都更好,适合关注模型压缩的研究者。