精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

11:03

arXiv cs.LG@Semih Kara, Oğuzhan Ersoy

精选

该研究探讨了自蒸馏中上下文设计的关键作用，通过训练求解器接收冻结批评者的反馈，比较了三种条件：二元奖励、参考解决方案和步骤对齐批评。步骤对齐批评在Avg@12指标上比GRPO高出16.11分，比参考解决方案条件高出5.27分。分析表明，步骤对齐反馈仅针对推理失败的token，保留正确行为，而参考解决方案迫使模型在每个token上改变行为，导致效率降低。研究揭示了反馈与求解器推理的结构对齐是自蒸馏有效性的关键驱动因素。

论文自蒸馏反馈对齐推理模型 GRPO 批评者

推荐理由：做自蒸馏或强化学习的研究者会发现，步骤对齐反馈比传统奖励信号更高效，直接提升模型推理质量，值得在实验中尝试这种上下文设计。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

11:27

arXiv cs.AI@Jiazhen Huang, Xiao Chen, Xiao Luo, Yong Dai, Senkang Hu, Yuzhi Zhao

精选

本文提出 Skill-Conditioned Gated Self-Distillation (SGSD) 方法，用于改进大语言模型的推理能力。传统自蒸馏方法依赖可信的先验信息（如参考答案），而 SGSD 从经验技能库中检索技能-错误对，构建多教师池，通过验证器判断教师极性，并设计门控目标函数来蒸馏有效信息。在多个数学推理基准上，SGSD 在 Qwen3-1.7B 上平均比 GRPO 提升 6.2%，比 OPSD 提升 1.7%，且对先验信息的假设更弱。代码已开源。

论文推理模型自蒸馏数学推理技能库 LLM

推荐理由：做 LLM 推理优化的研究者可以关注——SGSD 用技能库替代参考答案作为先验，降低了蒸馏对标注数据的依赖，数学推理场景效果显著，值得在自蒸馏框架中尝试。

原文

5月25日

12:05

AI Will@FinanceYF5

精选

ZEDA是一种针对混合专家模型（MoE）的后训练方法，通过自蒸馏技术让模型学会在推理时跳过半数专家，从而大幅降低计算成本。与传统的剪枝不同，ZEDA赋予模型“算力预算意识”，使其能根据每个token的重要性动态决定是否投入计算资源。该方法在保持性能的同时显著提升效率，为大规模MoE模型的部署提供了新思路。论文已发布在arXiv上。

论文 MoE/混合专家模型压缩/加速自蒸馏算力优化 ZEDA

推荐理由：做MoE模型部署或推理优化的团队，ZEDA直接解决了算力浪费问题——跳过一半专家还能保持效果，值得一试。

原文

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

原文

5月22日

10:46

arXiv: DeepSeek@Xiaogeng Liu, Xinyan Wang, Yingzi Ma, Yechao Zhang, Chaowei Xiao

精选

论文研究了在推理任务中，教师模型token的可靠性并非均匀分布，而是与序列中的位置强相关。作者提出分支可行性诊断方法，发现位置得分是预测教师token可靠性的最强指标（AUROC达0.83），而局部不确定性得分效果很差。基于此，提出位置加权在线策略自蒸馏（PW-OPSD），在保持原有训练框架的同时，对越靠后的token赋予更高权重。在Qwen3-4B上，PW-OPSD使AIME 2024和2025的Avg@12分别提升1.0和1.1分，在DeepSeek-R1-Distill-Llama-8B和Olmo-3-7B-Think上也取得一致改进。该方法无需额外教师计算，直接利用轨迹结构提升蒸馏效果。

论文推理模型自蒸馏位置加权教师模型 token可靠性

推荐理由：做推理模型蒸馏的团队终于有了一个简单有效的改进方向——不用改架构，只需调整token权重就能提升1分以上，值得在自家模型上复现。

原文

5月19日

14:25

arXiv cs.AI@Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu

精选

多模态大模型在细粒度视觉理解任务中常因无法聚焦关键证据而失败，而非缺乏局部识别能力。研究者提出Vision-OPD框架，通过区域到全局的自蒸馏方法，让模型从裁剪后的局部图像（教师）中学习，并迁移到全图（学生）策略上。该方法无需外部教师模型、标注数据或推理时工具，仅通过最小化教师与学生间token级分布差异来提升性能。在多个细粒度视觉理解基准上，Vision-OPD模型性能优于或媲美更大规模的开源、闭源及“思考+图像”智能体模型。

论文多模态大模型细粒度视觉理解自蒸馏区域到全局 Vision-OPD

推荐理由：多模态模型开发者常头疼的“看不清细节”问题，Vision-OPD用自蒸馏给出了一个轻量解法——不用外部模型或标注，直接让模型学会“自动放大”关键区域。做细粒度视觉理解或MLLM优化的团队值得关注。

原文

5月13日

19:12

arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

精选

本文研究了在线策略自蒸馏（OPSD）方法，即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题：教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此，他们提出OGLS-SD框架，利用可验证的结果奖励对比成功与失败的在线轨迹，并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导，在多个基准上稳定了自蒸馏过程并提升了推理性能。

论文自蒸馏推理模型 logit校准结果引导 LLM

推荐理由：如果你在做LLM推理优化或自蒸馏训练，OGLS-SD解决了教师-学生分布不匹配的痛点，用结果奖励校准logits的思路直接可复用，值得仔细看方法细节。

原文