Ray Serve LLM 在 GKE 上实现预填负载 4.4 倍、解码负载 24 倍吞吐量提升

精选理由

Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍，预填负载快 4.4 倍，解码负载快 24 倍，用 Ray V2 执行器就能体验。

AI 摘要

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本，在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍，解码密集型负载提升 24 倍。三个关键优化包括：控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

AI 翻译 · 中文

vLLMHuge milestone from the @anyscalecompute + @googlecloud GKE teams 🎊 Ray Serve LLM provides up to 4.4x higher throughput on prefill-heavy workloads and 24x on decode-heavy workloads than previous versions. Three optimi…

查看原推