UltraQuant:面向上下文密集型智能体的4位KV缓存压缩

UltraQuant: 4-bit KV Caching for Context-Heavy Agents

精选理由

长上下文智能体推理慢?UltraQuant把4位KV缓存做到实用,延迟降3倍多,吞吐涨1.6倍,值得看看。

AI 摘要

论文提出UltraQuant,一种针对智能体工作负载的4位KV缓存压缩方法,基于TurboQuant旋转和码书量化。在长上下文多轮任务中,UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍,全轮次平均降低2.3倍。相比FP8 KV缓存基线,输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。

AI 翻译 · 中文

论文提出UltraQuant,一种针对智能体工作负载的4位KV缓存压缩方法,基于TurboQuant旋转和码书量化。在长上下文多轮任务中,UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍,全轮次平均降低2.3倍。相比FP8 KV缓存基线,输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。

arXiv cs.LGContext-heavy agents place unusual pressure on the key-value (KV) cache: long prefixes are reused across many short turns, while concurrency determines whether the serving system can keep GPUs utilized. We study 4-bit KV