全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月25日

02:52

02:52

rohanpaul_ai@rohanpaul_ai

精选72°

研究发现，大型混合专家（MoE）模型在处理许多简单token时，浪费了约一半的专家计算资源。新提出的ZEDA（零专家自蒸馏适应）框架，通过为路由器添加“零专家”选项，让模型在token不需要复杂处理时直接跳过专家计算。该方法无需重新训练，而是将原MoE模型作为冻结教师，通过自蒸馏学习何时安全跳过计算。在Qwen3-30B-A3B和GLM-4.7-Flash上测试，去除了约50%的专家计算，精度损失极小，实际推理速度提升约20%。这表明计算消耗并不简单跟随任务难度，而是与不确定性相关，为部署MoE模型提供了更经济的方案。

论文 MoE 模型优化推理加速自蒸馏 Qwen3 GLM

推荐理由：部署MoE模型的团队终于可以省下一半专家计算——ZEDA让Qwen3和GLM等模型自动跳过简单token，推理速度提升20%且几乎不掉精度，做模型推理优化的开发者可以直接参考论文方法。

5月13日

15:51

15:51

Perplexity@perplexity_ai

精选

Perplexity AI 发布了关于在 NVIDIA GB200 NVL72 Blackwell 机架上部署后训练 Qwen3 235B 模型的新研究。研究表明，GB200 不仅是训练平台，更是大型 MoE 模型高吞吐推理的重大升级，性能显著优于 Hopper 架构。该工作展示了如何利用 Blackwell 的硬件特性优化推理效率，为大规模 AI 服务提供新思路。

AI模型推理模型 Perplexity Qwen3 NVIDIA GB200 MoE

推荐理由：做大规模模型推理部署的团队值得关注——GB200 在 MoE 模型上的推理效率提升显著，Perplexity 的实践给出了可直接参考的优化路径。