21:13LMSYS Org (SGLang)@lmsysorg71°SGLang团队为DeepEP MoE引入两种调度时负载均衡器Waterfill和LPLB。Waterfill将共享专家工作分配到较轻的rank,在DeepSeek V3/R1上带来+1.48%到+4.66%的性能提升,V4 Flash吞吐量从49,253 tok/s增至51,677 tok/s。LPLB优化冗余路由专家副本的流量分配,在red16/red32配置下取得+0.84%到+7.34%的提升。两种方法均不改变模型语义,保持推理精度。AI产品SGLangDeepEPDeepSeek V3推理优化负载均衡推荐理由:SGLang给DeepSeek模型加了两个新负载均衡器,跑DeepSeek V3/R1速度能快最多7%,而且不改精度,想加速推理的可以试试。原文