Expert Tying:MoE语言模型的层间专家参数共享

Tying the Loop -- Tied Expert Layers in Mixture-of-Experts Language Models

精选理由

这个工作很实在:跨层共享专家参数让MoE模型内存减半,性能不掉,适合做模型压缩和高效训练的朋友看看。

AI 摘要

混合专家架构通过每个token激活少量专家来高效扩展大语言模型,但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法,在保持独立层路由和注意力的前提下,将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示,该方法可将内存占用减少近2倍,且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余,实现了计算与内存的高效权衡。

AI 翻译 · 中文

混合专家架构通过每个token激活少量专家来高效扩展大语言模型,但训练和推理时仍需加载全部专家参数。本研究提出Expert Tying方法,在保持独立层路由和注意力的前提下,将相邻Transformer层的专家参数共享。在OLMoE、Qwen3和DeepSeek-style MoE上的预训练实验显示,该方法可将内存占用减少近2倍,且困惑度和下游任务质量几乎不受影响。该方法利用了MoE路径中固有的参数冗余,实现了计算与内存的高效权衡。

arXiv cs.LGMixture-of-Experts (MoE) architectures efficiently scale Large Language Models (LLMs) by activating only a small fraction of their experts per token, yet the full parameter count - dominated by the expert parameters - mu