21:13LMSYS Org (SGLang)@lmsysorg71°SGLang团队为DeepEP MoE引入两种调度时负载均衡器Waterfill和LPLB。Waterfill将共享专家工作分配到较轻的rank,在DeepSeek V3/R1上带来+1.48%到+4.66%的性能提升,V4 Flash吞吐量从49,253 tok/s增至51,677 tok/s。LPLB优化冗余路由专家副本的流量分配,在red16/red32配置下取得+0.84%到+7.34%的提升。两种方法均不改变模型语义,保持推理精度。AI产品SGLangDeepEPDeepSeek V3推理优化负载均衡推荐理由:SGLang给DeepSeek模型加了两个新负载均衡器,跑DeepSeek V3/R1速度能快最多7%,而且不改精度,想加速推理的可以试试。原文
13:00量子位@鱼羊英伟达开源了一款新的MoE加速库,只需一行import即可集成到Transformers v5中。微调速度提升3.7倍。该库支持专家并行技术,并整合了DeepEP和TransformerEngine组件。用户无需修改现有代码即可获取显著性能提升。AI模型英伟达MoETransformers v5DeepEP开源模型推荐理由:想让你HuggingFace上的MoE模型微调更快?英伟达这个新库一行代码就能加速3.7倍,直接用。原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek发布了DeepEP通信库,专为MoE模型的all-to-all通信优化。该库支持FP8计算和低延迟,在MoE训练和推理中提升效率。DeepEP已在GitHub开源,提供高性能通信接口。AI产品DeepEPDeepSeekMoE通信库开源推荐理由:DeepSeek开源MoE通信库原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek 宣布开源 DeepEP 项目,截至发稿在 GitHub 上获得 9,617 个星标。DeepEP 是一个用于高效专家并行(Expert Parallelism)的通信库,旨在降低 MoE 模型推理中的通信延迟。该项目基于 DeepSeek 内部实践,可帮助开发者优化大规模 MoE 部署。AI产品DeepEPDeepSeek开源推理优化MoE推荐理由:DeepSeek 开源了高效推理库原文
00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek发布DeepEP,一个专为MoE模型设计的开源专家并行通信库。DeepEP利用NVLink实现高吞吐量、低延迟的全对全通信。该库同时支持训练和推理场景,优化了分布式MoE的效率。AI模型DeepEPDeepSeekMoE专家并行开源推荐理由:DeepSeek开源了让MoE训练更快的通信库原文