FlexNPU：为LLM动态Prefill-Decode共置的透明NPU虚拟化

精选理由

FlexNPU 解决了LLM推理中prefill和decode阶段资源冲突的痛点，做模型部署和推理优化的团队可以直接参考其动态调度思路，尤其适合使用华为Ascend NPU的开发者。

AI 摘要

FlexNPU 提出了一种透明的用户空间虚拟化层，用于华为Ascend NPU，通过拦截AscendCL API并路由操作到设备守护进程，实现无需修改模型代码、AI框架或NPU驱动即可解耦应用与物理设备。该方案支持动态PD共置调度，根据prefill（计算密集）和decode（内存带宽受限）的互补资源特性灵活调整，解决了静态PD分离的资源不平衡和数据移动问题。在384卡Ascend 910C部署DeepSeek-R1时，相比静态PD分离，吞吐量提升5.15%和26.33%；在Qwen2.5-7B上，相比静态PD共置，TTFT降低超过92%且TPOT几乎不变。实验表明，透明NPU虚拟化是实现高效、响应式LLM服务的实用基础。

AI 翻译 · 中文

arXiv: DeepSeekModern AI serving increasingly relies on NPUs for conventional inference and large language model serving. However, current NPU deployments commonly expose physical devices directly to applications, which limits runtime …

阅读原文