09:06arXiv cs.AI@Luoyuan Zhang这篇论文指出当前 AI 智能体在处理相同文档时,每个智能体都会重复执行最耗计算的前缀填充(prefill)步骤,重建相同的键值(KV)缓存,造成巨大浪费。作者提出一个简单方案:让发布者预计算文档的 KV 缓存,其他智能体付费加载后跳过 prefill。实验表明,在 Qwen3-4B 模型上,复用比从头 prefill 节省 9-50 倍计算量,且输出 token 完全一致。但 KV 缓存体积大、难以压缩,直接传输成本高;作者建议在服务端托管(类似 prompt-caching),消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例,复用计算成本仅约 3 万美元,而重新 prefill 需 150 万美元,节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架,并指出无损 KV 压缩和跨方支付层是待解决的关键问题。论文KV缓存推理优化智能体预填充成本节省推荐理由:这篇论文直击 AI 智能体重复计算同一文档的浪费痛点,做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本,且已有实测数据支撑。原文
01:40Decoder@Matthias Bastian贝恩咨询对951家公司的调查显示,近40%的企业AI成本节省不到10%,而多数企业目标为11%-20%。原因之一是仅7%的企业真正运行完全自主的AI智能体,但商业案例却假设了这一点。人类干预和流程阻碍是导致AI节省目标落空的关键因素。该研究揭示了企业AI落地中“人机协作”的现实困境。行业AI落地企业效率成本节省贝恩咨询人机协作推荐理由:做AI落地和数字化转型的团队值得一看——贝恩的数据戳破了企业AI节省的泡沫,提醒你:光有技术不够,组织流程和人类习惯才是真正的瓶颈。原文