LCLM：端到端上下文压缩新方法，提升长上下文推理效率

精选理由

长上下文推理的内存瓶颈终于有了一个兼顾质量与速度的解法，做LLM推理优化或长时智能体的开发者值得关注，LCLM的压缩方案可以直接用于生产环境。

AI 摘要

长上下文语言模型推理受限于内存，KV缓存随上下文长度增长。现有压缩方法要么降低模型质量，要么需要大量计算。本文提出Latent Context Language Models (LCLMs)，一种编码器-解码器压缩器，通过架构搜索和预训练350B+ tokens，实现1:4、1:8、1:16压缩比。LCLMs在通用任务性能、压缩速度和峰值内存使用上均优于现有方法，并可作为长时智能体的高效骨干，支持自适应扩展相关片段。

AI 翻译 · 中文

arXiv cs.AILong-context language model inference is bottlenecked by memory, as the KV cache grows with context length. Recent techniques to compress the KV cache fall short: they either degrade model quality substantially or requir…

阅读原文