精选理由
长上下文推理的内存瓶颈终于有了一个兼顾质量与速度的解法,做LLM推理优化或长时智能体的开发者值得关注,LCLM的压缩方案可以直接用于生产环境。
长上下文语言模型推理受限于内存,KV缓存随上下文长度增长。现有压缩方法要么降低模型质量,要么需要大量计算。本文提出Latent Context Language Models (LCLMs),一种编码器-解码器压缩器,通过架构搜索和预训练350B+ tokens,实现1:4、1:8、1:16压缩比。LCLMs在通用任务性能、压缩速度和峰值内存使用上均优于现有方法,并可作为长时智能体的高效骨干,支持自适应扩展相关片段。
AI 翻译 · 中文
长上下文语言模型推理受限于内存,KV缓存随上下文长度增长。现有压缩方法要么降低模型质量,要么需要大量计算。本文提出Latent Context Language Models (LCLMs),一种编码器-解码器压缩器,通过架构搜索和预训练350B+ tokens,实现1:4、1:8、1:16压缩比。LCLMs在通用任务性能、压缩速度和峰值内存使用上均优于现有方法,并可作为长时智能体的高效骨干,支持自适应扩展相关片段。
Long-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or requir…