OLMoE-1B-7B

§ 01综述

混合专家模型（MoE）正成为语言模型高效扩展的关键路径，近期工作聚焦于降低推理开销与提升训练稳定性。OLMoE-1B-7B 作为典型紧凑型 MoE，以 1B 总参数、7B 专家参数的设计实现效率与性能的平衡，其相关研究从不同维度推进了 MoE 的实用化。

注意力头电路共激活机制被提出并验证（注意力头电路发现：共激活提出，消融验证）：该工作通过分析 OLMoE 等模型的注意力头协同模式，揭示了专家路由与注意力头之间的功能性关联，并利用消融实验确认了共激活对模型性能的关键影响，为理解 MoE 内部动态提供了新视角。

移动端部署方案 MobileMoE（MobileMoE：面向设备端部署的MoE语言模型，0.3B-0.9B活跃参数）将活跃参数缩小至 0.3B-0.9B，保持与 OLMoE-1B-7B 相似的架构思想，但针对资源受限场景优化了路由与专家分配，验证了 MoE 在端侧落地的可行性。

对称性兼容优化器设计（对称性兼容优化器设计原则：嵌入层、LM头、SwiGLU MLP与MoE路由器）则从训练基础设施出发，提出针对 MoE 组件（如路由器）的对称性保持原则，有效缓解了训练过程中的梯度失衡问题，对 OLMoE 类模型的大规模训练具有直接指导意义。

当前焦点在于如何进一步压紧活跃参数比例（例如低于 0.5B）的同时保持下游任务精度，以及专家分配策略的自动化。未来观察点包括：OLMoE-1B-7B 在长上下文（如 32K+ tokens）下的路由稳定性，以及结合稀疏注意力机制后的端到端推理加速效果。

§ 02相关报道03 条在档

§ 03邻近话题