AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:模型蒸馏×
6月23日
11:07
11:07arXiv cs.AI@Alexander V. Kozachok, Alexander M. Nazimov, Shamil G. Magomedov
该研究扩展了Text2DSL自动生成领域特定语言代码的工作,用DeepSeek-V4-Flash作为教师模型,在结构化上下文(BNF语法、API规范、词汇表)下生成数据,经AST验证(使用esprima)和运行时验证(polkitd与pkcheck)的流水线,将PolkitBench语料从4,204对扩充到10,073对,其中AST有效性达100.0%、运行时通过率99.7%。在GigaChat-10B-A1.8B上对八种消融条件(C0-C7)评估发现:无上下文时语法有效从97.6%降至58.5%而完整上下文仅从98.6%降至97.4%,完整上下文C7在所有指标上最优,词汇表对语义质量贡献最大(组合得分+0.198),API和BNF分别对结构有效性贡献+24.7和+22.3个百分点。
论文Text2DSLDeepSeek-V4-FlashGigaChat-10B-A1.8BPolkitBench模型蒸馏

推荐理由:这篇论文用DeepSeek-V4-Flash生成了上万条验证过的Polkit规则,并通过消融实验证明结构化上下文不是锦上添花,词汇表才是提升语义质量的关键。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
11:26
11:26arXiv cs.LG@Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye
该论文分析了在线策略蒸馏(OPD)在语言和多模态模型中的参数更新特性,发现OPD更新具有稀疏性,主要集中在FFN层,且仅训练这些子网络即可接近完整OPD的性能。更新在几何上是满秩但谱集中的,主要落在源权重接近零的坐标上。研究还发现,密集教师监督下SGD优化器不如AdamW,因为AdamW的自适应缩放对保持异构梯度尺度更有效。这些结果表明,OPD并非简单的密集参数重写,而是保留了策略后训练的几何特征。
论文模型蒸馏稀疏更新优化器对比几何分析OPD

推荐理由:这篇论文揭示了OPD更新的稀疏性和几何特性,对做模型蒸馏和微调的团队有直接参考价值——你可以只训练关键子网络来节省计算,同时理解为什么AdamW比SGD更优。建议点开看看实验细节。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月28日
11:55
11:55arXiv: DeepSeek@Zhaoyang Jiang, Xuanqi Peng, Fei Teng, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Honghan Wu
一项针对医疗问答链式推理(CoT)蒸馏的研究发现,蒸馏后的小模型在最终答案准确率上显著提升(MedQA-USMLE从74.7%到84.4%),但推理步骤的错误率却从30.6%上升到50.3%。研究使用Qwen3-8B作为学生模型,蒸馏自DeepSeek-V3系列教师模型,并通过Kimi-K2.6等LLM裁判和临床专家盲审验证了这一反向趋势。问题根源在于:当答案选项简短、无法约束完整推理时,学生模型能模仿专家风格的推理过程,但无法确保每一步的局部事实正确。标准答案指标和整体回避率无法揭示这一风险。该发现提醒,在医疗等高风险领域,仅用答案准确率评估蒸馏模型是不够的,推理步骤的事实性必须单独审计。
论文链式推理模型蒸馏医疗QA推理审计DeepSeek

推荐理由:做医疗AI或模型蒸馏的团队注意了:答案准不等于推理对,蒸馏后步骤错误率反而飙升,临床场景下这是致命隐患。建议点开看看审计方法,避免踩坑。
原文
5月18日
11:50
11:50arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu
精选
VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。
论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速

推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。
原文
精选全部日报登录