18:57vLLM@vllm_project精选NVIDIA 与 vLLM 合作发布 step-by-step 指南,教你用四台 DGX Spark 盒子组建私有集群,自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器,可提供兼容 OpenAI 的端点。无需数据中心,适合构建私有 agent 工作流。技巧Nemotron-3-UltraNVIDIADGX SparkvLLM自托管4 个信源在谈推荐理由:想不依赖数据中心自己跑 550B 模型?NVIDIA 出了详细教程,四台 DGX Spark 就能拼出 OpenAI 兼容的端点。原文
13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文
01:31vLLM@vllm_project精选百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。AI模型Unlimited-OCRBaiduvLLMOCRR-SWA1 个信源在谈推荐理由:百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。原文
13:54vLLM@vllm_project精选NVIDIA发布GLM-5.2的NVFP4检查点,在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行:vllm serve nvidia/GLM-5.2-NVFP4。AI模型GLM-5.2NVFP4vLLMNVIDIA推理模型4 个信源在谈推荐理由:想省显存又不想降精度?GLM-5.2的NVFP4版在vLLM上线了,比FP8省一半内存,推理编码长文本都稳。原文
20:05vLLM@vllm_project精选Cohere 开源了他们使用 AI 编码智能体维护 vLLM fork 的方法。该方法将维护视为控制循环:每次上游发布后 rebase,运行测试,诊断错误,修复,重复直到通过。原本数周的工作缩短到数天。技能库已开源(cohere-ai/vllm-skills),且修复已回馈上游。技巧CoherevLLM编码智能体开源推荐理由:Cohere 开源了用 AI agent 维护 vLLM fork 的实践,把几周工作缩到几天,修复还回馈了上游。原文
08:52Hugging Face: Blog(博客/媒体)精选HuggingFace推出新功能:只需一条命令即可在HF Jobs上启动vLLM推理引擎。vLLM是一个高性能、低延迟的推理框架,支持多种GPU和自定义模型。该功能简化了从模型托管到服务部署的流程,无需手动配置容器或基础设施。用户可以快速部署LLaMA、Mistral等开源模型。技巧vLLMHuggingFaceHF Jobs推理模型部署推荐理由:HuggingFace出了新招:一行命令就能跑vLLM服务器,省去了手动配置的麻烦,适合快速部署自己的模型。原文
02:16vLLM@vllm_project精选vLLM 宣布 Day-0 支持 Liquid AI 的 LFM2.5-230M 小模型。该模型仅 230M 参数,预训练于 19T tokens 且支持 32K 上下文。专为手机、机器人、家庭自动化和网络设备上的 agent 任务设计。可运行于 CPU、NPU 和 GPU 等硬件。AI模型LFM2.5-230MvLLMLiquid AI智能体轻量模型推荐理由:vLLM 第一时间给 Liquid AI 的 LFM2.5 小模型做了适配,230M 参数跑 agent 任务,手机、机器人上都能用。原文
03:08vLLM@vllm_project精选72°Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本,在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍,解码密集型负载提升 24 倍。三个关键优化包括:控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。AI模型Ray Serve LLMvLLMAnyscaleGoogle Cloud推理优化推荐理由:Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍,预填负载快 4.4 倍,解码负载快 24 倍,用 Ray V2 执行器就能体验。原文
20:22vLLM@vllm_project精选vLLM 推出新功能,允许用户在自己的 GPU 上运行开源模型作为编程助手。该引擎兼容 OpenAI Responses API,因此任何使用代码助手的工具都可直接指向你的服务器。支持 NVIDIA、AMD 等多种硬件。当前可部署 GLM 5.2、Kimi K2.7 Code、MiniMax M3 等模型。AI产品vLLM编程助手开源模型GLM 5.2Kimi K2.7 Code10 个信源在谈推荐理由:vLLM 现在能让你自己在 GPU 上跑开源模型当编程助手,省了 API 钱还更灵活,支持 NVIDIA、AMD 和多种模型。原文
03:05vLLM@vllm_project精选vLLM 发布 0.23.0 版本,为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口,专为长周期编码智能体设计,可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优,支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。AI模型vLLMGLM-5.21M token编程助手推理模型推荐理由:vLLM 刚发的 0.23.0 直接支持了 GLM-5.2,这个模型有 100 万 token 上下文,适合一口气写完整个项目代码,还能跨平台部署,写代码的可以试试。原文
20:16vLLM@vllm_project精选Anyscale团队发布报告,介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试,验证了实际性能提升。报告强调正确配置是发挥优势的关键。技巧vLLMRay ServeAnyscaleAMD MI325X推理优化推荐理由:vLLM推荐了Anyscale的这篇实战文章,讲清楚了PD Disagg在Ray Serve加vLLM上的做法,还在AMD MI325X上测过,值得搞推理部署的人看看。原文
20:16vLLM@vllm_project精选73°vLLM v0.23.0 包含 408 次提交,来自 200 位贡献者(63 位新贡献者)。主要亮点:DeepSeek-V4 在多个后端上成熟,引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified(无编码器)及 MTP 支持。还提供了多层级 KV 缓存卸载(含对象存储层)和统一的推理与工具调用解析器。AI产品vLLMDeepSeek-V4LlamaGemma 4推理引擎4 个信源在谈推荐理由:vLLM v0.23.0 大更新,DeepSeek-V4 和 Llama 用户值得升级,新的 KV 缓存卸载能省显存,推理与工具调用解析也更顺了。原文
12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
12:10vLLM@vllm_project精选Inferoa 是一个由 @agenticin 构建的社区智能体框架,基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环,包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体,降低推理成本。vLLM 项目团队对此表示期待,并希望开发者能进一步扩展其功能。AI产品智能体vLLM推理优化社区框架开源/仓库推荐理由:Inferoa 把推理成本优化直接嵌入智能体循环,做智能体应用或自托管模型的开发者值得关注,能帮你省下不少推理开销。原文
12:09vLLM@vllm_project精选vLLM 宣布对 Cohere 的 North Mini Code 模型提供 Day-0 支持,该模型是一个开源的编码模型,专为智能体工作流设计。模型采用 Mixture-of-Experts 架构,总参数量 30B,活跃参数 3B,支持 256K 上下文和 64K 最大生成长度。它具备推理、工具使用和结构化输出能力,可直接通过最新稳定版 vLLM 部署。这一支持让开发者能快速在 vLLM 上运行该模型,用于构建复杂的智能体应用。AI产品vLLMCohereNorth Mini Code编码模型智能体3 个信源在谈推荐理由:做智能体工作流和编码应用的开发者,现在可以直接用 vLLM 部署 Cohere 的 North Mini Code 模型,省去适配麻烦,建议试试。原文
12:09vLLM@vllm_project精选vLLM 项目宣布推出 vime,一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计,并利用 vLLM 推理引擎,提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存,为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态,推动互操作性和创新。AI产品vLLMRLHF后训练强化学习开源/仓库推荐理由:做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定,直接可用,想尝试不同 RL 框架的开发者值得关注。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
12:00arXiv cs.LG@Zelin Li, Caiwen Ding精选72°研究发现,大语言模型的零阶(ZO)微调本质上是推理密集型负载,而非传统训练。现有实现将ZO算法运行在训练循环中,导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时(如vLLM)上,在OPT-13B模型上实现了8.13倍加速,且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速,并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。论文零阶优化微调推理优化vLLM大语言模型推荐理由:做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑,vLLM直接提速8倍,建议做低成本微调的人点开看看实现细节。原文
11:25arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun精选PALS是一个针对大语言模型推理的功耗感知运行时系统,将GPU功耗上限作为可调控制参数,与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器,在满足吞吐量目标的同时最大化能效。在vLLM框架中实现,无需模型重训练或API更改。在多GPU系统上,针对稠密和混合专家模型,PALS能效提升最高26.3%,功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力,可实现能效比例和电网交互式AI系统。论文LLM推理功耗优化混合专家模型vLLM能效推荐理由:数据中心GPU能耗是AI部署的隐形杀手,PALS把功耗从硬约束变成可调参数,做LLM服务部署的团队可以直接在vLLM上集成,省电又保性能,值得一试。原文
14:13Cohere@cohere精选Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中,通过结合 4 位权重(低内存)和 8 位激活(高计算),在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16,TTFT(首 token 生成时间)提升高达 58%,TPOT(每 token 输出时间)提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率,适合生产环境部署。AI模型推理优化vLLMW4A8Cohere模型部署推荐理由:Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题,做模型部署和推理优化的团队可以直接在 vLLM 中体验,值得关注。原文
13:27arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan精选KVServe 是首个服务感知的自适应 KV 通信压缩框架,专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器,动态选择最优压缩方案。相比固定压缩策略,KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速,在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中,适用于不同模型、GPU 和网络环境。论文KV缓存压缩分离式LLM服务vLLM自适应优化通信效率推荐理由:KV 通信已成为分离式 LLM 服务的瓶颈,KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队,这个框架值得关注,可以直接集成到 vLLM 中试用。原文