AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:pass@k×
6月25日
10:46
10:46arXiv cs.LG@Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville
一篇论文研究了基于采样示范的在线自蒸馏方法对输出多样性的影响。该方法通过单一模型同时作为教师和学生,教师以正确示范为条件提供密集的token级反馈,在pass@1准确率上表现优异。但论文发现,这会导致推演多样性降低,pass@k曲线变平,即增加推演次数无法提升准确率。作者将原因追溯到自蒸馏设计中的复合偏差:教师在对学生推演评分时以采样到的正确推演为条件,通过模型自身偏见传导反馈。在可控的图路径发现任务和科学问答基准上,自蒸馏模型在平均性能上与强化学习相当或更优,但功能和语义多样性显著下降,在需要多样化策略的分布外场景中失败。
论文self-distillation强化学习输出多样性pass@k推理模型

推荐理由:这篇论文揭示了自蒸馏方法的一个隐藏缺陷:虽然准确率不错,但多样性会变差,导致复杂推理场景下失效。做RL或推理模型的人值得看看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录