全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:15

10:15

arXiv cs.AI@Mubarak Adetunji Ojewale

精选

解耦式LLM推理中，KV缓存需在解码前穿越数据中心网络，导致传输时间直接计入首令牌延迟（TTFT）。现有调度器仅考虑计算负载和前缀缓存局部性，忽略了预填充与解码实例间的拓扑距离和动态拥塞。NetKV通过引入网络成本预言机，证明了忽略网络项会导致缓存感知调度在上下文长度增长时性能任意次优。在64 GPU四层胖树模拟器上，NetKV将平均TTFT降低21.2%，SLO达标率提升20.1个百分点，且每令牌时间开销低于0.5毫秒。该方法无需修改传输层、推理引擎或硬件。

论文推理模型 KV缓存网络感知调度解耦推理 TTFT优化

推荐理由：做大规模LLM推理部署的团队，NetKV直接解决了TTFT瓶颈——网络延迟被正式纳入调度决策，实测效果显著且零侵入，值得在现有集群上评估。