全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:06

09:06

arXiv cs.AI@Luoyuan Zhang

这篇论文指出当前 AI 智能体在处理相同文档时，每个智能体都会重复执行最耗计算的前缀填充（prefill）步骤，重建相同的键值（KV）缓存，造成巨大浪费。作者提出一个简单方案：让发布者预计算文档的 KV 缓存，其他智能体付费加载后跳过 prefill。实验表明，在 Qwen3-4B 模型上，复用比从头 prefill 节省 9-50 倍计算量，且输出 token 完全一致。但 KV 缓存体积大、难以压缩，直接传输成本高；作者建议在服务端托管（类似 prompt-caching），消除传输开销。以一个热门 3774 token 文档被 80M 智能体访问为例，复用计算成本仅约 3 万美元，而重新 prefill 需 150 万美元，节省 49.7 倍。论文还提出了智能体原生 prefill CDN 的框架，并指出无损 KV 压缩和跨方支付层是待解决的关键问题。

论文 KV缓存推理优化智能体预填充成本节省

推荐理由：这篇论文直击 AI 智能体重复计算同一文档的浪费痛点，做 LLM 推理优化或智能体基础设施的团队值得关注——它提出的 KV 缓存共享方案可能大幅降低推理成本，且已有实测数据支撑。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

01:40

01:40

Decoder@Matthias Bastian

贝恩咨询对951家公司的调查显示，近40%的企业AI成本节省不到10%，而多数企业目标为11%-20%。原因之一是仅7%的企业真正运行完全自主的AI智能体，但商业案例却假设了这一点。人类干预和流程阻碍是导致AI节省目标落空的关键因素。该研究揭示了企业AI落地中“人机协作”的现实困境。

行业 AI落地企业效率成本节省贝恩咨询人机协作

推荐理由：做AI落地和数字化转型的团队值得一看——贝恩的数据戳破了企业AI节省的泡沫，提醒你：光有技术不够，组织流程和人类习惯才是真正的瓶颈。