UltraQuant：面向上下文密集型智能体的4位KV缓存压缩

精选理由

长上下文智能体推理慢？UltraQuant把4位KV缓存做到实用，延迟降3倍多，吞吐涨1.6倍，值得看看。

AI 摘要

论文提出UltraQuant，一种针对智能体工作负载的4位KV缓存压缩方法，基于TurboQuant旋转和码书量化。在长上下文多轮任务中，UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍，全轮次平均降低2.3倍。相比FP8 KV缓存基线，输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。

AI 翻译 · 中文

arXiv cs.LGContext-heavy agents place unusual pressure on the key-value (KV) cache: long prefixes are reused across many short turns, while concurrency determines whether the serving system can keep GPUs utilized. We study 4-bit KV…

阅读原文