00:33DeepSeek: GitHub 新仓库(资讯)精选DeepSeek 宣布开源 DeepEP 项目,截至发稿在 GitHub 上获得 9,617 个星标。DeepEP 是一个用于高效专家并行(Expert Parallelism)的通信库,旨在降低 MoE 模型推理中的通信延迟。该项目基于 DeepSeek 内部实践,可帮助开发者优化大规模 MoE 部署。AI产品DeepEPDeepSeek开源推理优化MoE推荐理由:DeepSeek 开源了高效推理库原文
21:35DeepSeek: GitHub 新仓库(资讯)70°DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。AI模型DeepSeekFlashMLA开源/仓库推理优化Hopper GPU推荐理由:DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈,做推理优化和模型部署的开发者可以直接拿来用,值得一试。原文