KVServe：服务感知的KV缓存压缩，提升分离式LLM服务通信效率

精选理由

KV 通信已成为分离式 LLM 服务的瓶颈，KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队，这个框架值得关注，可以直接集成到 vLLM 中试用。

AI 摘要

KVServe 是首个服务感知的自适应 KV 通信压缩框架，专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器，动态选择最优压缩方案。相比固定压缩策略，KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速，在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中，适用于不同模型、GPU 和网络环境。

AI 翻译 · 中文

arXiv cs.AILLMs are widely adopted in production, pushing inference systems to their limits. Disaggregated LLM serving (e.g., PD separation and KV state disaggregation) improves scalability and cost efficiency, but it also turns KV…

阅读原文