CPU-GPU混合设计实现本地MoE推理云级SLO

精选理由

本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案，不用再忍受降级模型和低吞吐。

AI 摘要

本地部署大型混合专家模型（MoE）在服务质量上远不及云端环境，即使低并发场景也存在四大差距：依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统，通过流式加载预填充（SLP）将预填充吞吐提升至1200 tokens/s，支持32K提示词在30秒内完成；分布式SLP（DSLP）结合SmallEP专家并行，在双RTX 5090上达到1800 tokens/s和45K提示词；以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量，无需数据中心基础设施即可获得高质量、低成本的本地推理。

AI 翻译 · 中文

arXiv: DeepSeekLocal deployment of large Mixture-of-Experts (MoE) models falls short of the service quality achieved in cloud-scale environments, even under low-concurrency workloads. We identify four key gaps in local MoE inference: r…

阅读原文