论文精选

LCLM:端到端上下文压缩新方法,提升长上下文推理效率

End-to-End Context Compression at Scale

精选理由

长上下文推理的内存瓶颈终于有了一个兼顾质量与速度的解法,做LLM推理优化或长时智能体的开发者值得关注,LCLM的压缩方案可以直接用于生产环境。

AI 摘要

长上下文语言模型推理受限于内存,KV缓存随上下文长度增长。现有压缩方法要么降低模型质量,要么需要大量计算。本文提出Latent Context Language Models (LCLMs),一种编码器-解码器压缩器,通过架构搜索和预训练350B+ tokens,实现1:4、1:8、1:16压缩比。LCLMs在通用任务性能、压缩速度和峰值内存使用上均优于现有方法,并可作为长时智能体的高效骨干,支持自适应扩展相关片段。

AI 翻译 · 中文

长上下文语言模型推理受限于内存,KV缓存随上下文长度增长。现有压缩方法要么降低模型质量,要么需要大量计算。本文提出Latent Context Language Models (LCLMs),一种编码器-解码器压缩器,通过架构搜索和预训练350B+ tokens,实现1:4、1:8、1:16压缩比。LCLMs在通用任务性能、压缩速度和峰值内存使用上均优于现有方法,并可作为长时智能体的高效骨干,支持自适应扩展相关片段。

arXiv cs.AILong-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or requir