AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Qwen3×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月25日
02:52
02:52rohanpaul_ai@rohanpaul_ai
精选72°
研究发现,大型混合专家(MoE)模型在处理许多简单token时,浪费了约一半的专家计算资源。新提出的ZEDA(零专家自蒸馏适应)框架,通过为路由器添加“零专家”选项,让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练,而是将原MoE模型作为冻结教师,通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试,去除了约50%的专家计算,精度损失极小,实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度,而是与不确定性相关,为部署MoE模型提供了更经济的方案。
论文MoE模型优化推理加速自蒸馏Qwen3GLM

推荐理由:部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token,推理速度提升20%且几乎不掉精度,做模型推理优化的开发者可以直接参考论文方法。
原文
5月13日
15:51
15:51Perplexity@perplexity_ai
精选
Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明,GB200 不仅是训练平台,更是大型 MoE 模型高吞吐推理的重大升级,性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率,为大规模 AI 服务提供新思路。
AI模型推理模型PerplexityQwen3NVIDIA GB200MoE

推荐理由:做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著,Perplexity 的实践给出了可直接参考的优化路径。
原文
精选全部日报登录