12:03Harrison Chase@hwchase17Manus AI CEO Alex Olsen在推特上表示,KV-cache命中率是生产级AI代理唯一最重要的指标。Manus AI通过深度代理技术优化提示缓存,以提升缓存命中率。该指标直接影响推理成本和响应速度,目前已有669次浏览与2次点赞。Olsen强调,没有高KV-cache命中率的代理系统无法真正扩展。行业Manus AIKV-cache智能体缓存优化推荐理由:Manus AI的CEO说KV-cache命中率最关键,他们用深度代理优化缓存,搞AI基建的该看看。原文
11:41arXiv cs.LG@Zhuoren Ye, Tianyu Wo, Dinghao Xue, Mingming Zhang, Yuchen Teng, Chunming Hu, Renyu YangCrossPool 是一种为冷 MoE 模型设计的多 LLM 服务引擎,它将 FFN 权重和 KV-cache 分离到两个 GPU 内存池中。权重池合并多个冷模型的 FFN 权重,KV-cache 池动态服务活跃请求,使注意力计算局部化。系统包含 KV-cache 规划器、虚拟化器、层间流水线调度器以及持久化内核,减少了 CPU-GPU 控制开销。在突发长上下文请求下,CrossPool 相比基于 KV-cache 的最先进多 LLM 服务系统,将 P99 TBT 降低了最多 10.4 倍。论文CrossPoolMoEKV-cache推理模型模型服务推荐理由:这篇论文提出了 CrossPool,通过分离权重和 KV-cache 池,能大幅降低冷 MoE 模型的推理延迟,比现有系统快 10 倍以上。原文
12:55阶跃星辰 Stepfun@Stepfun_AI精选StepFun 的 Step 3.7 Flash 模型通过 MFA 和 AFD 技术,从设计之初就注重效率,而非事后优化。这些技术显著降低了 KV-cache 成本,使模型运行更经济高效。Fireworks AI 提供了便捷的一键部署支持,开发者可以快速上手。该模型特别适合构建智能体应用,体现了“效率优先”的设计哲学。AI模型Step 3.7 FlashKV-cache效率优化智能体Fireworks AI推荐理由:Step 3.7 Flash 通过原生效率设计解决了 KV-cache 成本痛点,做智能体应用的开发者可以直接用 Fireworks AI 一键部署,值得试试。原文