11:01arXiv cs.LG@Inesh Chakrabarti, David Limpus, Aditi Ghai Rana, Bowen Bao, Spandan Tiwari, Thiago Crepaldi, Ashish Sirasao论文提出UltraQuant,一种针对智能体工作负载的4位KV缓存压缩方法,基于TurboQuant旋转和码书量化。在长上下文多轮任务中,UltraQuant在缓存压力大的后期轮次将P50首令牌延迟降低3.47倍,全轮次平均降低2.3倍。相比FP8 KV缓存基线,输出吞吐量提升1.63倍。设计包括非对称K/V处理、Walsh-Hadamard旋转及AMD GPU专用优化。论文UltraQuantFP4KV缓存AMD GPU推理优化推荐理由:长上下文智能体推理慢?UltraQuant把4位KV缓存做到实用,延迟降3倍多,吞吐涨1.6倍,值得看看。原文