6月4日
12:10
12:10arXiv: DeepSeek@Jiongjiong Gu, Jianfeng Wang, Zidong Han, Yongqiao Wang, Pengfei Xia, Mingjie Zhang, Hong Liu, Yuanyi Xia, Jiajia Chu, Yifeng Tang, Hui Zang, Xin Yao, Qijie Qiu, Yuzhao Wang, Chuanfei Xu, Lin Zhang, Zhuonan Lai, Hongming Huang, Jiawei Qiu, Gong Zhang, Zhong Ming, Weipeng Cao
精选72°
FlexNPU 提出了一种透明的用户空间虚拟化层,用于华为Ascend NPU,通过拦截AscendCL API并路由操作到设备守护进程,实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度,根据prefill(计算密集)和decode(内存带宽受限)的互补资源特性灵活调整,解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时,相比静态PD分离,吞吐量提升5.15%和26.33%;在Qwen2.5-7B上,相比静态PD共置,TTFT降低超过92%且TPOT几乎不变。实验表明,透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。
推荐理由:FlexNPU 解决了LLM推理中prefill和decode阶段资源冲突的痛点,做模型部署和推理优化的团队可以直接参考其动态调度思路,尤其适合使用华为Ascend NPU的开发者。