12:13arXiv: DeepSeek@Xiongwei Zhu, Xiaojian Liao, Tianyang Jiang, Yusen Zhang, Liang Wang, Limin Xiao精选细粒度混合专家(MoE)模型在推理时只激活部分专家,但内存受限场景下只能缓存少量专家,未缓存的专家需从慢速外部存储获取,导致频繁换入换出和I/O开销。ReMoE提出一种路由器微调框架,通过偏向近期选中的专家来产生时间上稳定的路由,从而提升专家复用率,减少存储访问。实验表明,在DeepSeek和Qwen模型上,ReMoE将专家复用率提升26%,同时保持下游任务性能。在vLLM GPU-CPU专家卸载场景下,输出吞吐量提升8.4%;在Jetson Orin NX上使用llama.cpp时,TPOT降低43.6-49.8%,解码速度提升1.77-1.99倍。代码和模型已开源。论文MoE模型推理优化路由器微调专家复用边缘部署推荐理由:ReMoE解决了内存受限设备上MoE模型推理的I/O瓶颈,做边缘部署或大模型推理优化的开发者可以直接试,开源代码让复现门槛很低。原文