TACG:任务感知分组降低多任务MoE推理通信成本31%

Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference

精选理由

MoE推理的通信瓶颈终于有了任务感知的解法——做多任务MoE部署的团队可以直接参考TACG的静态分组+GESR动态复制策略,实测通信成本降三成,公平性几乎无损。

AI 摘要

稀疏激活的混合专家(MoE)模型在分布式推理中面临跨GPU通信和负载不均问题。现有方法通过全局路由痕迹平均化处理专家共激活模式,忽略了多任务场景下不同任务族的异质性。本文提出TACG框架,利用任务族特定的调度和共激活痕迹,为每个专家推导任务族偏好,重新加权共激活图,使同族专家优先部署在同一GPU上。同时引入GESR机制,复制通用专家到少量辅助GPU,在线推理时兼顾局部性和负载均衡。在三个开源MoE模型上,该方法平均降低通信成本31.39%,Jain公平指数达0.9975,且对推理数据分布偏移具有鲁棒性。

AI 翻译 · 中文

稀疏激活的混合专家(MoE)模型在分布式推理中面临跨GPU通信和负载不均问题。现有方法通过全局路由痕迹平均化处理专家共激活模式,忽略了多任务场景下不同任务族的异质性。本文提出TACG框架,利用任务族特定的调度和共激活痕迹,为每个专家推导任务族偏好,重新加权共激活图,使同族专家优先部署在同一GPU上。同时引入GESR机制,复制通用专家到少量辅助GPU,在线推理时兼顾局部性和负载均衡。在三个开源MoE模型上,该方法平均降低通信成本31.39%,Jain公平指数达0.9975,且对推理数据分布偏移具有鲁棒性。

arXiv cs.AISparsely activated Mixture-of-Experts (MoE) models scale capacity via conditional computation, but distributed inference suffers from cross-GPU expert communication and routing-induced load imbalance. Existing placement