精选理由
做大规模LLM推理部署的团队,NetKV直接解决了TTFT瓶颈——网络延迟被正式纳入调度决策,实测效果显著且零侵入,值得在现有集群上评估。
解耦式LLM推理中,KV缓存需在解码前穿越数据中心网络,导致传输时间直接计入首令牌延迟(TTFT)。现有调度器仅考虑计算负载和前缀缓存局部性,忽略了预填充与解码实例间的拓扑距离和动态拥塞。NetKV通过引入网络成本预言机,证明了忽略网络项会导致缓存感知调度在上下文长度增长时性能任意次优。在64 GPU四层胖树模拟器上,NetKV将平均TTFT降低21.2%,SLO达标率提升20.1个百分点,且每令牌时间开销低于0.5毫秒。该方法无需修改传输层、推理引擎或硬件。
AI 翻译 · 中文
解耦式LLM推理中,KV缓存需在解码前穿越数据中心网络,导致传输时间直接计入首令牌延迟(TTFT)。现有调度器仅考虑计算负载和前缀缓存局部性,忽略了预填充与解码实例间的拓扑距离和动态拥塞。NetKV通过引入网络成本预言机,证明了忽略网络项会导致缓存感知调度在上下文长度增长时性能任意次优。在64 GPU四层胖树模拟器上,NetKV将平均TTFT降低21.2%,SLO达标率提升20.1个百分点,且每令牌时间开销低于0.5毫秒。该方法无需修改传输层、推理引擎或硬件。
Disaggregated LLM inference forces the KV cache to traverse the datacenter network before decoding begins, so transfer time enters directly into the Time to First Token (TTFT) budget. Current schedulers route on compute …