全部 AI 动态 · AI 热点

6月19日

03:08

03:08

vLLM@vllm_project

精选72°

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本，在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍，解码密集型负载提升 24 倍。三个关键优化包括：控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

AI模型 Ray Serve LLM vLLM Anyscale Google Cloud 推理优化

推荐理由：Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍，预填负载快 4.4 倍，解码负载快 24 倍，用 Ray V2 执行器就能体验。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

20:16

20:16

vLLM@vllm_project

精选

Anyscale团队发布报告，介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试，验证了实际性能提升。报告强调正确配置是发挥优势的关键。

技巧 vLLM Ray Serve Anyscale AMD MI325X 推理优化

推荐理由：vLLM推荐了Anyscale的这篇实战文章，讲清楚了PD Disagg在Ray Serve加vLLM上的做法，还在AMD MI325X上测过，值得搞推理部署的人看看。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？