这篇论文直击 AI 智能体重复计算同一文档的浪费痛点,做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本,且已有实测数据支撑。
这篇论文指出当前 AI 智能体在处理相同文档时,每个智能体都会重复执行最耗计算的前缀填充(prefill)步骤,重建相同的键值(KV)缓存,造成巨大浪费。作者提出一个简单方案:让发布者预计算文档的 KV 缓存,其他智能体付费加载后跳过 prefill。实验表明,在 Qwen3-4B 模型上,复用比从头 prefill 节省 9-50 倍计算量,且输出 token 完全一致。但 KV 缓存体积大、难以压缩,直接传输成本高;作者建议在服务端托管(类似 prompt-caching),消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例,复用计算成本仅约 3 万美元,而重新 prefill 需 150 万美元,节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架,并指出无损 KV 压缩和跨方支付层是待解决的关键问题。
这篇论文指出当前 AI 智能体在处理相同文档时,每个智能体都会重复执行最耗计算的前缀填充(prefill)步骤,重建相同的键值(KV)缓存,造成巨大浪费。作者提出一个简单方案:让发布者预计算文档的 KV 缓存,其他智能体付费加载后跳过 prefill。实验表明,在 Qwen3-4B 模型上,复用比从头 prefill 节省 9-50 倍计算量,且输出 token 完全一致。但 KV 缓存体积大、难以压缩,直接传输成本高;作者建议在服务端托管(类似 prompt-caching),消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例,复用计算成本仅约 3 万美元,而重新 prefill 需 150 万美元,节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架,并指出无损 KV 压缩和跨方支付层是待解决的关键问题。
Right now, across the world, AI agents are repeating the same absurd act: to read one document, they each recompute it from scratch. Every agent re-runs prefill, the most compute-intensive step a large model takes, over …