全部 AI 动态 · AI 热点

6月30日

10:36

arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang

精选

Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模，但数据移动瓶颈导致推理效率低下。两个关键问题：低贡献专家带来几乎均等的内存与传输成本（成本收益比低），以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销，选择性剪枝低重要性高成本专家，并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1（671B参数）上的评估显示，CAEE将端到端推理延迟降低8%-18%（专家卸载与设备内执行），模型准确率下降小于1%。

论文 CAEE MoE DeepSeek-R1 推理优化多设备

推荐理由：CAEE框架能降低MoE模型推理延迟8%-18%，且准确率几乎不受影响。DeepSeek-R1用户可重点关注。

原文

6月25日

10:31

arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi

论文提出MD Decoupling优化器修改方法，将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益，以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容，消除了对权重衰减和warmup的需求。实验表明，MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线，并允许跨模型宽度直接迁移学习率而不需重新调参。

论文 MD Decoupling Adam Muon MoE 优化器

推荐理由：这篇论文提出了一种简单通用的优化器改进方案，能解耦权重幅度和方向，消除权重衰减和warmup，在Adam和Muon上都有效，值得关注。

原文

09:37

arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong

稀疏MoE（Mixture-of-Experts）模型在多语言场景下，低资源语言因数据稀缺导致路由与高资源语言不一致，限制跨语言知识共享。为此提出SARA（Semantically Anchored Routing Alignment）框架，利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上，针对5种低资源语言和3个基准测试，SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏，直接对齐内部路由机制，有效缓解低资源语言瓶颈。

论文 SARA MoE Qwen3 多语言模型开源模型

推荐理由：论文提出SARA方法，用语义锚对齐MoE路由，让低资源语言也能用好专家能力，Global-MMLU提升0.8%-1.2%。

原文

6月24日

11:41

arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu Yang

CrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎，它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重，KV-cache 池动态服务活跃请求，使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核，减少了 CPU-GPU 控制开销。在突发长上下文请求下，CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统，将 P99 TBT 降低了最多 10.4 倍。

论文 CrossPool MoE KV-cache 推理模型模型服务

推荐理由：这篇论文提出了 CrossPool，通过分离权重和 KV-cache 池，能大幅降低冷 MoE 模型的推理延迟，比现有系统快 10 倍以上。

原文

6月19日

11:40

arXiv cs.AI@Gina Wong, Drew Prinster, Suchi Saria, Rama Chellappa, Anqi Liu

该论文研究混合专家模型在分布偏移下的校准问题。先前工作表明专家级校准可提升MoE模型的准确率和校准度。本文发现硬路由模型中专家校准足以保证整体校准，但软路由模型则不足。对此提出对抗性重新加权方法，惩罚分布偏移下路由聚合的校准误差。实验证明该方法能改善平均及困难子集上的准确率-校准权衡。

论文 MoE 分布偏移校准对抗性重加权

推荐理由：这篇论文把MoE的校准问题研究透了，告诉你硬路由和软路由有什么区别，还给了一个对抗性重加权的解法。

原文

6月18日

09:53

arXiv cs.LG@Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen

稀疏混合专家（SMoE）架构通过Top-k专家选择实现条件路由，但这会导致映射不连续。论文将不连续性按阶数分类（由切换事件中并列专家数决定），并建立渐近体积估计：低阶不连续性占据主导，高阶体积趋于零。通过扩散过程建模输入随机扰动，证明路径几乎必然在有限时间内首次击中一阶不连续性。实验结果在语言和视觉任务上表明，提出的平滑机制不仅恢复连续性，还提升了经验性能。

论文 Sparse Mixture-of-Experts SMoE MoE 稀疏专家模型不连续性分析

推荐理由：这篇论文把SMoE的不连续性分析得清清楚楚，还附带了一个计算量很小的平滑方法，实验证明又能提高效果，值得一看。

原文

09:44

arXiv cs.AI@Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane

传统分布式大模型训练需要每个数据中心持有完整模型副本，导致巨大内存和通信开销。FoMoE通过将专家层分散到不同节点，将通信开销降低至传统方法的1.42倍，相比DDP下降45.44倍。其跳词机制在实际训练中实现了1.4倍的吞吐量提升。系统建模显示，FoMoE在100B参数规模下仍能保持通信和内存优势。

论文 FoMoE MoE 分布式训练通信优化弱连接数据中心

推荐理由：FoMoE把MoE的专家拆开放不同数据中心，省通信还提速，适合多数据中心联合训练大模型。

原文

09:21

arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

精选

该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题，提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题，通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验，结合4-bit量化后，50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上，内存占用减少5.27倍，优于现有基线。

论文 MoE 结构剪枝量化 DeepSeek Qwen

推荐理由：想省显存又怕掉精度？这篇论文用通道级剪枝加4-bit量化，把MoE模型体积砍到1/5还能保住性能，DeepSeek和Qwen都能用。

原文

6月17日

09:41

arXiv cs.AI@Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin Kurdziel

SoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由，实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算，使容量分配可学习。在语言建模和下游任务上，SoftMoE性能与稀疏MoE相当或更优，但激活专家数量更少。实验显示分配呈高度非均匀性，后层激活更多专家。

AI模型 SoftMoE MoE LLM 专家混合可微路由

推荐理由：稀疏MoE的top-k路由不灵活还浪费算力，SoftMoE用可微路由让模型自己学会少用专家，性能却不输，代码开源了。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:56

arXiv: DeepSeek@Yingnan Zhao, Razvan Bunescu, Ahmed Louri, Avinash Karanth, Ke Wang

针对MoE模型（如Qwen、DeepSeek）推理中专家加载延迟高的问题，研究者分析了专家选择行为，发现相邻MoE层和连续解码token间专家请求存在强相关性。基于此提出ST-MoE，一个结合轻量级运行时预测机制与可重构硬件设计的专家预取框架。ST-MoE通过预取专家与计算重叠，显著提升推理性能并降低能耗，同时保持模型精度。实验在多种MoE模型和应用（语言理解、代码生成）上验证了有效性。

论文 MoE Qwen DeepSeek ST-MoE 推理加速

推荐理由：这篇论文分析了Qwen、DeepSeek等MoE模型的专家加载瓶颈，用ST-MoE框架通过预取专家来加速推理，兼顾效率和精度，适合关注大模型推理优化的读者。

原文

10:54

arXiv cs.LG@Martin Jaggi

混合专家架构通过每个token激活少量专家来高效扩展大语言模型，但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法，在保持独立层路由和注意力的前提下，将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示，该方法可将内存占用减少近2倍，且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余，实现了计算与内存的高效权衡。

论文 Expert Tying MoE OLMoE Qwen3 模型压缩

推荐理由：这个工作很实在：跨层共享专家参数让MoE模型内存减半，性能不掉，适合做模型压缩和高效训练的朋友看看。

原文

09:50

arXiv cs.LG@Zongfang Liu, Jinghui Zhang, Zijian Ma, Guangyi Chen, Xin Yuan

该研究提出MoE专家一次性剪枝的统一公式，将现有启发式标准归为路由频率、门控权重、激活强度三类因素。基于此给出选择原则：任务无关剪枝应优先使用基于激活强度、无门控的标准。新提出的MAN和MSAN标准在4个MoE模型、16个基准上取得任务无关设置平均排名前两位。平均性能比最强基线提升最多8.8个百分点。

论文 MoE 专家剪枝语言模型基准测试模型压缩

推荐理由：这篇论文把MoE剪枝的各种评分方法统一了，还提出MAN和MSAN两个新标准，在多个模型和基准上表现更稳定，适合做模型压缩的人参考。

原文

6月15日

11:12

arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi

论文对DiffusionGemma 26B（基于Gemma 4的掩码离散扩散MoE模型）进行解码顺序测量，在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归，而是部分从左到右偏置。偏置强度随分析粒度平滑增强，块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌，批量内顺序多数未定义，行为依赖场景：结构化JSON提交顺序任意，数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发，任务准确率与自回归Gemma 4相当。核心贡献是方法论：正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。

论文 DiffusionGemma Gemma 4 掩码扩散模型解码顺序 MoE

推荐理由：解析扩散模型真实解码行为

原文

6月12日