论文精选72°

CPU-GPU混合设计实现本地MoE推理云级SLO

Achieving Cloud-Grade SLOs for Local Mixture-of-Experts Inference through CPU-GPU Hybrid Design

精选理由

本地跑MoE大模型终于能追上云端的服务质量了——做本地部署的开发者可以直接参考这套CPU-GPU混合方案,不用再忍受降级模型和低吞吐。

AI 摘要

本地部署大型混合专家模型(MoE)在服务质量上远不及云端环境,即使低并发场景也存在四大差距:依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统,通过流式加载预填充(SLP)将预填充吞吐提升至1200 tokens/s,支持32K提示词在30秒内完成;分布式SLP(DSLP)结合SmallEP专家并行,在双RTX 5090上达到1800 tokens/s和45K提示词;以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量,无需数据中心基础设施即可获得高质量、低成本的本地推理。

AI 翻译 · 中文

本地部署大型混合专家模型(MoE)在服务质量上远不及云端环境,即使低并发场景也存在四大差距:依赖降级模型、无法满足长预填充的30秒TTFT、解码吞吐量低于20 tokens/s、混合负载下并发能力差。本文提出CPU-GPU混合系统,通过流式加载预填充(SLP)将预填充吞吐提升至1200 tokens/s,支持32K提示词在30秒内完成;分布式SLP(DSLP)结合SmallEP专家并行,在双RTX 5090上达到1800 tokens/s和45K提示词;以及零拷贝共享权重的节点内预填充-解码分离、AVX-512优化的FP8 GEMV内核等技术。该系统在消费级CPU-GPU平台上实现了旗舰MoE模型的云级服务质量,无需数据中心基础设施即可获得高质量、低成本的本地推理。

arXiv: DeepSeekLocal deployment of large Mixture-of-Experts (MoE) models falls short of the service quality achieved in cloud-scale environments, even under low-concurrency workloads. We identify four key gaps in local MoE inference: r