10:54arXiv cs.LG@Martin Jaggi混合专家架构通过每个token激活少量专家来高效扩展大语言模型,但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法,在保持独立层路由和注意力的前提下,将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示,该方法可将内存占用减少近2倍,且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余,实现了计算与内存的高效权衡。论文Expert TyingMoEOLMoEQwen3模型压缩推荐理由:这个工作很实在:跨层共享专家参数让MoE模型内存减半,性能不掉,适合做模型压缩和高效训练的朋友看看。原文