Can I Buy Your KV Cache? 论文提出预计算 KV 缓存共享方案

精选理由

这篇论文直击 AI 智能体重复计算同一文档的浪费痛点，做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本，且已有实测数据支撑。

AI 摘要

这篇论文指出当前 AI 智能体在处理相同文档时，每个智能体都会重复执行最耗计算的前缀填充（prefill）步骤，重建相同的键值（KV）缓存，造成巨大浪费。作者提出一个简单方案：让发布者预计算文档的 KV 缓存，其他智能体付费加载后跳过 prefill。实验表明，在 Qwen3-4B 模型上，复用比从头 prefill 节省 9-50 倍计算量，且输出 token 完全一致。但 KV 缓存体积大、难以压缩，直接传输成本高；作者建议在服务端托管（类似 prompt-caching），消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例，复用计算成本仅约 3 万美元，而重新 prefill 需 150 万美元，节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架，并指出无损 KV 压缩和跨方支付层是待解决的关键问题。

AI 翻译 · 中文

arXiv cs.AIRight now, across the world, AI agents are repeating the same absurd act: to read one document, they each recompute it from scratch. Every agent re-runs prefill, the most compute-intensive step a large model takes, over …

阅读原文