Cohere@cohere精选58Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中,通过结合 4 位权重(低内存)和 8 位激活(高计算),在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16,TTFT(首 token 生成时间)提升高达 58%,TPOT(每 token 输出时间)提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率,适合生产环境部署。AI模型推理优化vLLMW4A8Cohere模型部署推荐理由:Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题,做模型部署和推理优化的团队可以直接在 vLLM 中体验,值得关注。
arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan精选65KVServe 是首个服务感知的自适应 KV 通信压缩框架,专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器,动态选择最优压缩方案。相比固定压缩策略,KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速,在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中,适用于不同模型、GPU 和网络环境。论文KV缓存压缩分离式LLM服务vLLM自适应优化通信效率推荐理由:KV 通信已成为分离式 LLM 服务的瓶颈,KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队,这个框架值得关注,可以直接集成到 vLLM 中试用。