TACG：任务感知分组降低多任务MoE推理通信成本31%

精选理由

MoE推理的通信瓶颈终于有了任务感知的解法——做多任务MoE部署的团队可以直接参考TACG的静态分组+GESR动态复制策略，实测通信成本降三成，公平性几乎无损。

AI 摘要

稀疏激活的混合专家（MoE）模型在分布式推理中面临跨GPU通信和负载不均问题。现有方法通过全局路由痕迹平均化处理专家共激活模式，忽略了多任务场景下不同任务族的异质性。本文提出TACG框架，利用任务族特定的调度和共激活痕迹，为每个专家推导任务族偏好，重新加权共激活图，使同族专家优先部署在同一GPU上。同时引入GESR机制，复制通用专家到少量辅助GPU，在线推理时兼顾局部性和负载均衡。在三个开源MoE模型上，该方法平均降低通信成本31.39%，Jain公平指数达0.9975，且对推理数据分布偏移具有鲁棒性。

AI 翻译 · 中文

arXiv cs.AISparsely activated Mixture-of-Experts (MoE) models scale capacity via conditional computation, but distributed inference suffers from cross-GPU expert communication and routing-induced load imbalance. Existing placement …

阅读原文