10:36arXiv: DeepSeek@Hui Zang, Pengfei Xia, Hong Liu, Jiajia Chu, Tuo Hao, Minghao Chen, Rui Zhang, Ziyang Zhang精选Mixture-of-Experts (MoE)架构通过稀疏激活扩展模型规模,但数据移动瓶颈导致推理效率低下。两个关键问题:低贡献专家带来几乎均等的内存与传输成本(成本收益比低),以及多设备部署中受最慢设备限制。CAEE框架利用轻量级成本模型估算硬件开销,选择性剪枝低重要性高成本专家,并通过低开销补偿机制避免额外数据传输。在DeepSeek-R1(671B参数)上的评估显示,CAEE将端到端推理延迟降低8%-18%(专家卸载与设备内执行),模型准确率下降小于1%。论文CAEEMoEDeepSeek-R1推理优化多设备推荐理由:CAEE框架能降低MoE模型推理延迟8%-18%,且准确率几乎不受影响。DeepSeek-R1用户可重点关注。原文
10:31arXiv cs.LG@Alexander Hägele, Alejandro Hernández-Cano, Atli Kosson, Martin Jaggi论文提出MD Decoupling优化器修改方法,将每个权重分解为超球面上的固定范数方向与可学习的每行每列幅度增益,以解耦幅度和方向的更新。该方法与Adam和Muon等基础优化器兼容,消除了对权重衰减和warmup的需求。实验表明,MD Decoupling在宽模型和大型MoE模型上均优于精心调优的基线,并允许跨模型宽度直接迁移学习率而不需重新调参。论文MD DecouplingAdamMuonMoE优化器推荐理由:这篇论文提出了一种简单通用的优化器改进方案,能解耦权重幅度和方向,消除权重衰减和warmup,在Adam和Muon上都有效,值得关注。原文
09:37arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong稀疏MoE(Mixture-of-Experts)模型在多语言场景下,低资源语言因数据稀缺导致路由与高资源语言不一致,限制跨语言知识共享。为此提出SARA(Semantically Anchored Routing Alignment)框架,利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上,针对5种低资源语言和3个基准测试,SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏,直接对齐内部路由机制,有效缓解低资源语言瓶颈。论文SARAMoEQwen3多语言模型开源模型推荐理由:论文提出SARA方法,用语义锚对齐MoE路由,让低资源语言也能用好专家能力,Global-MMLU提升0.8%-1.2%。原文
11:41arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu YangCrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎,它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重,KV-cache 池动态服务活跃请求,使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核,减少了 CPU-GPU 控制开销。在突发长上下文请求下,CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统,将 P99 TBT 降低了最多 10.4 倍。论文CrossPoolMoEKV-cache推理模型模型服务推荐理由:这篇论文提出了 CrossPool,通过分离权重和 KV-cache 池,能大幅降低冷 MoE 模型的推理延迟,比现有系统快 10 倍以上。原文
11:40arXiv cs.AI@Gina Wong, Drew Prinster, Suchi Saria, Rama Chellappa, Anqi Liu该论文研究混合专家模型在分布偏移下的校准问题。先前工作表明专家级校准可提升MoE模型的准确率和校准度。本文发现硬路由模型中专家校准足以保证整体校准,但软路由模型则不足。对此提出对抗性重新加权方法,惩罚分布偏移下路由聚合的校准误差。实验证明该方法能改善平均及困难子集上的准确率-校准权衡。论文MoE分布偏移校准对抗性重加权推荐理由:这篇论文把MoE的校准问题研究透了,告诉你硬路由和软路由有什么区别,还给了一个对抗性重加权的解法。原文
09:53arXiv cs.LG@Tho Tran Huu, Huu-Tuan Nguyen, Thien-Hai Nguyen, Nhat-Tri Ho, Viet-Hoang Tran, Tho Quan, Tan Minh Nguyen稀疏混合专家(SMoE)架构通过Top-k专家选择实现条件路由,但这会导致映射不连续。论文将不连续性按阶数分类(由切换事件中并列专家数决定),并建立渐近体积估计:低阶不连续性占据主导,高阶体积趋于零。通过扩散过程建模输入随机扰动,证明路径几乎必然在有限时间内首次击中一阶不连续性。实验结果在语言和视觉任务上表明,提出的平滑机制不仅恢复连续性,还提升了经验性能。论文Sparse Mixture-of-ExpertsSMoEMoE稀疏专家模型不连续性分析推荐理由:这篇论文把SMoE的不连续性分析得清清楚楚,还附带了一个计算量很小的平滑方法,实验证明又能提高效果,值得一看。原文
09:44arXiv cs.AI@Lorenzo Sani, Zeyu Cao, Meghdad Kurmanji, Alex Iacob, Andrej Jovanovic, Yan Gao, Wanru Zhao, Nicholas D. Lane传统分布式大模型训练需要每个数据中心持有完整模型副本,导致巨大内存和通信开销。FoMoE通过将专家层分散到不同节点,将通信开销降低至传统方法的1.42倍,相比DDP下降45.44倍。其跳词机制在实际训练中实现了1.4倍的吞吐量提升。系统建模显示,FoMoE在100B参数规模下仍能保持通信和内存优势。论文FoMoEMoE分布式训练通信优化弱连接数据中心推荐理由:FoMoE把MoE的专家拆开放不同数据中心,省通信还提速,适合多数据中心联合训练大模型。原文
09:21arXiv: DeepSeek@Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao精选该论文针对混合专家(MoE)模型部署时内存和推理开销大的问题,提出一种结构剪枝框架。方法将剪枝比率分配转化为通道分数覆盖最大化问题,通过归因近似高效求解。在DeepSeek和Qwen MoE模型上实验,结合4-bit量化后,50%或25%结构化剪枝仍保持模型准确率。在Qwen3-30B-A3B上,内存占用减少5.27倍,优于现有基线。论文MoE结构剪枝量化DeepSeekQwen推荐理由:想省显存又怕掉精度?这篇论文用通道级剪枝加4-bit量化,把MoE模型体积砍到1/5还能保住性能,DeepSeek和Qwen都能用。原文
09:41arXiv cs.AI@Mikołaj Zasada, Łukasz Struski, Jacek Tabor, Marcin KurdzielSoftMoE用截断的soft top-k LapSum松弛替换传统稀疏MoE的离散top-k路由,实现专家路由的可微分化。模型参数化每层平均激活专家数并施加全局预算,使容量分配可学习。在语言建模和下游任务上,SoftMoE性能与稀疏MoE相当或更优,但激活专家数量更少。实验显示分配呈高度非均匀性,后层激活更多专家。AI模型SoftMoEMoELLM专家混合可微路由推荐理由:稀疏MoE的top-k路由不灵活还浪费算力,SoftMoE用可微路由让模型自己学会少用专家,性能却不输,代码开源了。原文
11:56arXiv: DeepSeek@Yingnan Zhao, Razvan Bunescu, Ahmed Louri, Avinash Karanth, Ke Wang针对MoE模型(如Qwen、DeepSeek)推理中专家加载延迟高的问题,研究者分析了专家选择行为,发现相邻MoE层和连续解码token间专家请求存在强相关性。基于此提出ST-MoE,一个结合轻量级运行时预测机制与可重构硬件设计的专家预取框架。ST-MoE通过预取专家与计算重叠,显著提升推理性能并降低能耗,同时保持模型精度。实验在多种MoE模型和应用(语言理解、代码生成)上验证了有效性。论文MoEQwenDeepSeekST-MoE推理加速推荐理由:这篇论文分析了Qwen、DeepSeek等MoE模型的专家加载瓶颈,用ST-MoE框架通过预取专家来加速推理,兼顾效率和精度,适合关注大模型推理优化的读者。原文
10:54arXiv cs.LG@Martin Jaggi混合专家架构通过每个token激活少量专家来高效扩展大语言模型,但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法,在保持独立层路由和注意力的前提下,将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示,该方法可将内存占用减少近2倍,且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余,实现了计算与内存的高效权衡。论文Expert TyingMoEOLMoEQwen3模型压缩推荐理由:这个工作很实在:跨层共享专家参数让MoE模型内存减半,性能不掉,适合做模型压缩和高效训练的朋友看看。原文
09:50arXiv cs.LG@Zongfang Liu, Jinghui Zhang, Zijian Ma, Guangyi Chen, Xin Yuan该研究提出MoE专家一次性剪枝的统一公式,将现有启发式标准归为路由频率、门控权重、激活强度三类因素。基于此给出选择原则:任务无关剪枝应优先使用基于激活强度、无门控的标准。新提出的MAN和MSAN标准在4个MoE模型、16个基准上取得任务无关设置平均排名前两位。平均性能比最强基线提升最多8.8个百分点。论文MoE专家剪枝语言模型基准测试模型压缩推荐理由:这篇论文把MoE剪枝的各种评分方法统一了,还提出MAN和MSAN两个新标准,在多个模型和基准上表现更稳定,适合做模型压缩的人参考。原文
11:12arXiv cs.LG@Ali Asaria, Tony Salomone, Deep Gandhi论文对DiffusionGemma 26B(基于Gemma 4的掩码离散扩散MoE模型)进行解码顺序测量,在686-prompt六场景测试中发现其提交令牌既非并行也非块自回归,而是部分从左到右偏置。偏置强度随分析粒度平滑增强,块大小实为测量伪像而非架构属性。模型以大批量同时提交令牌,批量内顺序多数未定义,行为依赖场景:结构化JSON提交顺序任意,数学推理中位置置信度与正确性相关但事实回忆无信号。提交在预算内晚期爆发,任务准确率与自回归Gemma 4相当。核心贡献是方法论:正确测量需处理尾部EOS填充、场景混淆、提交非单调性、块大小敏感性和大批量平局等混淆因素。论文DiffusionGemmaGemma 4掩码扩散模型解码顺序MoE5 个信源在谈推荐理由:解析扩散模型真实解码行为原文
11:27arXiv cs.AI@Songhao Wu, Ang Lv, Ruobing Xie, Yankai Lin精选Mixture-of-Experts (MoE) 模型中的路由器负责决定激活哪些专家,但其设计缺乏理论指导。本文提出将每个路由器行与对应专家的主奇异方向对齐,因为该方向能最有效地描述矩阵。基于此,作者设计了 Manifold Power Iteration (MPI) 方法,采用“先幂迭代再收缩”的范式,使路由器行收敛到专家的主奇异方向。实验在 1B 到 11B 参数的 MoE 模型上验证,该方法显著提升了模型效果。论文MoE路由器设计主奇异方向Manifold Power Iteration模型优化推荐理由:MoE 模型的路由器设计长期缺乏理论依据,MPI 给出了可解释的优化方向,做大规模 MoE 训练的团队值得关注,能直接提升模型效率。原文
09:10arXiv: DeepSeek@ Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang精选76°快手发布Keye-VL-2.0-30B-A3B,一个基于MoE架构的开源多模态基础模型,专为长视频理解和智能体场景设计。该模型首次将DeepSeek Sparse Attention适配到GQA架构,实现无损256K上下文处理,能捕捉关键帧和长程时序依赖。通过跨模态多教师策略蒸馏(MOPD)和上下文/视频强化学习,解决了多任务对齐中的灾难性遗忘问题,仅激活3B参数即可在代码、工具和搜索场景中实现智能体协作与多模态自我纠正。在视频理解、时序定位、推理、STEM和智能体基准测试中,Keye-VL-2.0在相似规模模型中达到最优性能,尤其在TimeLens细粒度时序定位和Video-MME-v2长视频理解上表现突出。模型权重已开源。AI模型开源/仓库MoE长视频理解智能体多模态推荐理由:长视频理解和智能体场景的开发者终于有了一个开源且高效的MoE模型——Keye-VL-2.0仅激活3B参数就能处理256K上下文,做视频分析或智能体应用的团队可以直接下载权重试试。原文
11:54arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna这篇论文系统研究了混合专家(MoE)大模型推理中的多级解耦策略,从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦(AFD)。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上,以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架,论文在真实工作负载下评估了各级解耦的收益与局限。结果表明,在严格的 TTFT/TPOT 服务等级目标下,AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量,而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议,为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。论文MoE推理优化解耦架构Attention-FFNDeepSeek-V3.2推荐理由:MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平,做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。原文
10:30arXiv cs.AI@Yanbei Chen, Hanxian Huang, Ernie Chang, Jacob Szwejbka, Digant Desai, Zechun Liu, Vikas Chandra, Raghuraman Krishnamoorthi精选76°MobileMoE 是一系列专为移动设备设计的混合专家(MoE)语言模型,活跃参数在0.3B到0.9B之间,总参数1.3B到5.3B。研究团队首次提出了面向设备端的MoE缩放定律,在内存和计算约束下优化架构,找到了中等稀疏度与细粒度共享专家的最佳平衡点。模型采用四阶段训练流程(预训练、中训练、指令微调、量化感知训练),全部基于开源数据集。在14个基准测试中,MobileMoE以2-4倍更少的推理FLOPs匹配或超越领先的密集模型,并以最多60%更少的参数超越SOTA MoE模型OLMoE-1B-7B。在商用智能手机上,MobileMoE-S在INT4权重内存下比密集基线MobileLLM-Pro实现1.8-3.8倍更快的预填充和2.2-3.4倍更快的解码。论文MoE移动端部署缩放定律量化训练MobileMoE推荐理由:MobileMoE解决了移动端大模型部署的算力与内存瓶颈,做端侧AI应用或手机端推理的开发者可以直接参考其架构和训练方案,实测性能提升显著。原文
09:46arXiv cs.AI@Bole Ma, Jan Eitzinger, Harald Koestler, Gerhard Wellein精选MoE 专家并行中的 AlltoAll 调度是主要瓶颈,业界提出四种缓解方案,但都基于两个假设:路由不均衡可由系统层修正,以及模拟 token 基准能代表真实生产路由。DODOCO 工具在五个 MoE 检查点(DeepSeek-V2-Lite MLA、DeepSeek-MoE-16B MHA、Qwen3-30B GQA、Nemotron-30B Mamba-2、Qwen3.5-35B GDN)上测试了这些假设,发现两者均不成立。扩展 EP 时,每个专家的最大/平均 token 比变化不超过 5%,表明 straggler 是模型路由决策固有的,而非专家在 rank 上的分布。模拟 token 高估路由 Gini 系数最多 2.35 倍,并制造出虚假的 batch-size 缩放趋势。五种架构分为两个稳定带:MHA 和 Mamba-2 在真实文本上 Gini 降至 0.105-0.150,而 MLA 和 GDN 始终高于 0.24。论文MoE专家并行AlltoAll调度路由不均衡系统优化推荐理由:做 MoE 系统优化或互联设计的工程师,这篇论文用实测数据推翻了行业两个核心假设,直接告诉你路由不均衡是模型固有、模拟测试不可信,看完能避免在错误方向上投入精力。原文
10:42arXiv: DeepSeek@Moiz Arif, Avinash Maurya, Sudharshan Vazhkudai, Bogdan Nicolae精选72°本文系统研究了从标准生成式 AI 向推理密集型架构(如长链思维模型)转变时,LLM 推理面临的新瓶颈。研究发现,推理工作负载产生大量推理 token,使推理进入“容量受限”阶段,而非传统的计算受限阶段。通过评估 8B 到 671B 参数模型,论文揭示了数据并行在小模型上高效但受 KV 缓存碎片影响,张量并行在 32B 参数附近有次线性增益,而大规模稠密模型受互联和内存带宽限制,稀疏 MoE 模型则受路由和同步延迟限制。这些发现为构建下一代推理基础设施提供了决策框架。论文推理模型并行策略KV缓存MoE系统优化推荐理由:这篇论文戳中了推理模型部署的核心痛点——从计算瓶颈转向容量瓶颈,做 LLM 推理优化的工程师和架构师值得细读,能帮你避开常见的并行策略陷阱。原文
14:02arXiv: DeepSeek@Jing Wang, Hongxuan Lu, Jazze Young, Shu Wang, Zhimin Xin精选DBES 是一个针对混合专家模型(MoE)中专家专业化程度的系统评估框架,包含多领域基准和五个理论驱动的指标:路由专业化、归一化有效秩、领域隔离度、路由刚度评分和N-gram专家度。研究发现不同模型呈现不同专业化范式:Qwen系列表现出模块化专业化和高领域隔离,而DeepSeek和GLM采用分布式协作。更重要的是,通过DBES识别高专业化专家路径进行领域特定后训练,仅用15%的训练资源即可实现66%到94.48%的专业领域性能提升。这项工作首次提供了独立于准确率指标的专家专业化评估方法,为下一代MoE系统的设计和后训练优化提供了关键见解。论文MoE专家专业化基准测试路由机制后训练优化推荐理由:MoE模型的路由机制一直是个黑盒,DBES让开发者能真正量化专家是否在干专长的事。做MoE训练或微调的团队,可以用这套指标直接优化后训练效率,省资源又提效果,值得一试。原文
13:27arXiv cs.LG@Mind Lab, :, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang精选MinT(MindLab Toolkit)是一个专为低秩适配(LoRA)后训练和在线推理设计的托管基础设施系统。它针对在少量昂贵基座模型上产生大量训练策略的场景,通过保持基座模型常驻内存,仅移动导出的LoRA适配器,避免了合并完整检查点的开销。MinT沿三个维度扩展:向上支持超过1T总参数的前沿密集和MoE架构;向下实现适配器仅占基座模型1%以下大小,在4B密集模型上步骤时间减少18.3倍;向外支持百万级可寻址策略目录和千级适配器并发波次。该系统使得在共享的1T级基座模型上训练和推理数百万LoRA策略成为可能。论文LoRA训练/推理基础设施MoE大规模部署MinT推荐理由:做大规模LoRA训练和推理的团队终于有了正经的工程方案——MinT解决了策略数量爆炸时的资源浪费问题,用适配器分离和调度大幅降低成本,搞大模型服务的建议点开看看。原文
19:12arXiv: DeepSeek@Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong精选混合专家(MoE)大模型通过稀疏激活专家实现高效扩展,但频繁切换专家造成内存带宽瓶颈,而模拟存算一体(CIM)架构可缓解此问题。然而,模拟CIM的硬件缺陷会扰动存储权重,其对MoE模型的影响此前未被系统研究。本文首次基于真实芯片噪声校准,发现硬件噪声会破坏专家负载均衡,使训练好的路由决策失效。为此提出ROMER后训练校准框架:替换低激活专家为高频专家以恢复负载均衡,并通过百分位数归一化重新校准路由器logits。在DeepSeek-MoE、Qwen-MoE和OLMoE上,ROMER在真实芯片噪声下将困惑度分别降低58.6%、58.8%和59.8%,验证了其有效性和跨架构泛化能力。论文MoE存算一体硬件噪声后训练校准鲁棒性推荐理由:模拟存算一体是突破大模型内存墙的关键路线,但硬件噪声对MoE架构的破坏一直未被正视。做硬件-算法协同设计的团队,这篇论文给出了可直接复用的校准方案,值得细读。原文
19:03arXiv: DeepSeek(学术论文)意大利ENGINEERING公司发布了EngGPT2MoE-16B-A3B语言模型,采用16B参数MoE架构(3B活跃参数)。在国际基准测试(ARC-Challenge、GSM8K、MMLU等)中,该模型全面优于FastwebMIIA-7B、Minerva-7B等意大利本土模型。与同规模MoE模型相比,EngGPT2在多数指标上超过DeepSeek-MoE-16B-Chat和Moonlight-16B-A3B,但落后于GPT-OSS-20B。在意大利语数据集ITALIC上,模型表现仅次于Velvet-14B。研究认为该模型是意大利原生大语言模型的重要进步。论文大语言模型MoE意大利语EngGPT2基准测试推荐理由:该评测展示了意大利本土LLM的最新进展,对关注多语言模型(尤其是意大利语)的研究者和开发者具有参考价值,也反映了MoE架构在中等参数规模下的实际性能水平。原文