AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:OPD×
6月23日
10:47
10:47arXiv cs.LG@Yan Xie, Sijie Zhu, Tiansheng Wen, Bo Chen, Yifei Wang
标准在策略蒸馏(OPD)对所有token均匀加权,但研究发现学生rollout越长,后续token与教师分布偏差越大。仅使用前30%的token即可达到全token性能,而仅用后30%几乎学不到东西。基于约束优化视角,提出重要性加权在策略蒸馏(IW-OPD),根据累积偏差动态调整token权重。IW-OPD收敛更快,在AIME-2025基准上性能提升多达6.9分。
论文OPDIW-OPDAIME-2025推理模型位置偏差

推荐理由:这篇论文揭示了OPD中后面token质量差的问题,提出IW-OPD加权方案,在AIME-2025上提分6.9,做蒸馏研究的值得一看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
11:26
11:26arXiv cs.LG@Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye
该论文分析了在线策略蒸馏(OPD)在语言和多模态模型中的参数更新特性,发现OPD更新具有稀疏性,主要集中在FFN层,且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的,主要落在源权重接近零的坐标上。研究还发现,密集教师监督下SGD优化器不如AdamW,因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明,OPD并非简单的密集参数重写,而是保留了策略后训练的几何特征。
论文模型蒸馏稀疏更新优化器对比几何分析OPD

推荐理由:这篇论文揭示了OPD更新的稀疏性和几何特性,对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算,同时理解为什么AdamW比SGD更优。建议点开看看实验细节。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录