精选 AI 资讯 · AI 热点

6月29日

18:57

18:57

vLLM@vllm_project

精选

NVIDIA 与 vLLM 合作发布 step-by-step 指南，教你用四台 DGX Spark 盒子组建私有集群，自托管 550B 参数的 Nemotron-3-Ultra 模型。指南基于 vLLM 官方容器，可提供兼容 OpenAI 的端点。无需数据中心，适合构建私有 agent 工作流。

技巧 Nemotron-3-Ultra NVIDIA DGX Spark vLLM 自托管

推荐理由：想不依赖数据中心自己跑 550B 模型？NVIDIA 出了详细教程，四台 DGX Spark 就能拼出 OpenAI 兼容的端点。

13:09

13:09

vLLM@vllm_project

精选

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

AI模型 vLLM Qwen3-TTS VoxCPM2 Higgs Audio V3 Fish Speech S2 Pro 语音合成推理优化

推荐理由：vLLM团队分享了优化四种主流TTS模型服务的具体技巧，包括性能提升数据和实现细节，对部署TTS服务很有参考价值。

01:31

01:31

vLLM@vllm_project

精选

百度Unlimited-OCR现已集成到vLLM推理框架中，基于Reference Sliding Window Attention（R-SWA）机制实现恒定KV缓存，避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档，且编辑距离极低。在6K输出token场景下，推理速度比DeepSeek-OCR快35%，GPU内存和吞吐量保持恒定。

AI模型 Unlimited-OCR Baidu vLLM OCR R-SWA

推荐理由：百度开源了Unlimited-OCR，在vLLM上跑，能一次性解析整本书，内存不涨，比DeepSeek-OCR快35%，做文档OCR的好东西。

6月27日

13:54

13:54

vLLM@vllm_project

精选

NVIDIA发布GLM-5.2的NVFP4检查点，在Blackwell GPU上相比FP8内存占用降低一半。该模型在推理、编码和长上下文基准测试中保持与FP8相同的准确率。用户可通过vLLM直接加载运行：vllm serve nvidia/GLM-5.2-NVFP4。

AI模型 GLM-5.2 NVFP4 vLLM NVIDIA 推理模型

推荐理由：想省显存又不想降精度？GLM-5.2的NVFP4版在vLLM上线了，比FP8省一半内存，推理编码长文本都稳。

6月26日

20:05

20:05

vLLM@vllm_project

精选

Cohere 开源了他们使用 AI 编码智能体维护 vLLM fork 的方法。该方法将维护视为控制循环：每次上游发布后 rebase，运行测试，诊断错误，修复，重复直到通过。原本数周的工作缩短到数天。技能库已开源（cohere-ai/vllm-skills），且修复已回馈上游。

技巧 Cohere vLLM 编码智能体开源

推荐理由：Cohere 开源了用 AI agent 维护 vLLM fork 的实践，把几周工作缩到几天，修复还回馈了上游。

08:52

08:52Hugging Face: Blog（博客/媒体）

精选

HuggingFace推出新功能：只需一条命令即可在HF Jobs上启动vLLM推理引擎。vLLM是一个高性能、低延迟的推理框架，支持多种GPU和自定义模型。该功能简化了从模型托管到服务部署的流程，无需手动配置容器或基础设施。用户可以快速部署LLaMA、Mistral等开源模型。

技巧 vLLM HuggingFace HF Jobs 推理模型部署

推荐理由：HuggingFace出了新招：一行命令就能跑vLLM服务器，省去了手动配置的麻烦，适合快速部署自己的模型。

02:16

02:16

vLLM@vllm_project

精选

vLLM 宣布 Day-0 支持 Liquid AI 的 LFM2.5-230M 小模型。该模型仅 230M 参数，预训练于 19T tokens 且支持 32K 上下文。专为手机、机器人、家庭自动化和网络设备上的 agent 任务设计。可运行于 CPU、NPU 和 GPU 等硬件。

AI模型 LFM2.5-230M vLLM Liquid AI 智能体轻量模型

推荐理由：vLLM 第一时间给 Liquid AI 的 LFM2.5 小模型做了适配，230M 参数跑 agent 任务，手机、机器人上都能用。

6月19日

03:08

03:08

vLLM@vllm_project

精选72°

Anyscale 与 Google Cloud GKE 合作推出 Ray Serve LLM 新版本，在 vLLM 基础上实现显著性能飞跃。预填密集型负载吞吐量提升 4.4 倍，解码密集型负载提升 24 倍。三个关键优化包括：控制平面端点选择器的直接流式传输、新的 vLLM Ray V2 执行器后端、以及基于 HAProxy 的 C 语言级路由。Ray 的容错、可观察性和跨 K8s/VM 可移植性为复杂推理部署奠定基础。

AI模型 Ray Serve LLM vLLM Anyscale Google Cloud 推理优化

推荐理由：Anyscale 和 Google Cloud 联手让 vLLM 推理快了好几倍，预填负载快 4.4 倍，解码负载快 24 倍，用 Ray V2 执行器就能体验。

6月18日

20:22

20:22

vLLM@vllm_project

精选

vLLM 推出新功能，允许用户在自己的 GPU 上运行开源模型作为编程助手。该引擎兼容 OpenAI Responses API，因此任何使用代码助手的工具都可直接指向你的服务器。支持 NVIDIA、AMD 等多种硬件。当前可部署 GLM 5.2、Kimi K2.7 Code、MiniMax M3 等模型。

AI产品 vLLM 编程助手开源模型 GLM 5.2 Kimi K2.7 Code

推荐理由：vLLM 现在能让你自己在 GPU 上跑开源模型当编程助手，省了 API 钱还更灵活，支持 NVIDIA、AMD 和多种模型。

6月17日

03:05

03:05

vLLM@vllm_project

精选

vLLM 发布 0.23.0 版本，为 Zai.org 的 GLM-5.2 模型提供 Day-0 支持。GLM-5.2 拥有 1M token 上下文窗口，专为长周期编码智能体设计，可承载从需求到部署的完整开发流程。该模型针对大规模代码实现、自动化研究和性能优化进行了调优，支持客户端和移动端内调试。用户即日起可通过 vLLM 运行该模型。

AI模型 vLLM GLM-5.2 1M token 编程助手推理模型

推荐理由：vLLM 刚发的 0.23.0 直接支持了 GLM-5.2，这个模型有 100 万 token 上下文，适合一口气写完整个项目代码，还能跨平台部署，写代码的可以试试。

6月16日

20:16

20:16

vLLM@vllm_project

精选

Anyscale团队发布报告，介绍如何用Ray Serve和vLLM实现PD Disaggregation。该技术在AMD MI325X GPU上通过了压力测试，验证了实际性能提升。报告强调正确配置是发挥优势的关键。

技巧 vLLM Ray Serve Anyscale AMD MI325X 推理优化

推荐理由：vLLM推荐了Anyscale的这篇实战文章，讲清楚了PD Disagg在Ray Serve加vLLM上的做法，还在AMD MI325X上测过，值得搞推理部署的人看看。

20:16

20:16

vLLM@vllm_project

精选73°

vLLM v0.23.0 包含 408 次提交，来自 200 位贡献者（63 位新贡献者）。主要亮点：DeepSeek-V4 在多个后端上成熟，引入 TRTLLM-gen attention 内核、与 V3.2 解耦的稀疏 MLA 以及用于 Mega-MoE 的 EPLB 调度。Model Runner V2 现已成为 Llama 和 Mistral 稠密模型的默认运行器。新增 Gemma 4 Unified（无编码器）及 MTP 支持。还提供了多层级 KV 缓存卸载（含对象存储层）和统一的推理与工具调用解析器。

AI产品 vLLM DeepSeek-V4 Llama Gemma 4 推理引擎

推荐理由：vLLM v0.23.0 大更新，DeepSeek-V4 和 Llama 用户值得升级，新的 KV 缓存卸载能省显存，推理与工具调用解析也更顺了。

6月12日

12:10

12:10

vLLM@vllm_project

精选73°

GoogleDeepMind 推出了 DiffusionGemma，这是一个基于 Gemma4 架构的 26B 参数扩散语言模型（dLLM），并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同，DiffusionGemma 能并行去噪 256 个 token 的块，在单张 H200（FP8）上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现，对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心，由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。

AI模型扩散语言模型 vLLM GoogleDeepMind 并行生成推理加速

推荐理由：DiffusionGemma 用并行去噪替代逐 token 生成，大幅提升推理速度，做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验，值得关注。

12:10

12:10

vLLM@vllm_project

精选

Inferoa 是一个由 @agenticin 构建的社区智能体框架，基于 vLLM 技术栈。它通过推理经济学来塑造智能体循环，包括前缀缓存管理、上下文优化以及在自托管模型和前沿模型之间的路由。该框架旨在帮助开发者更高效地运行智能体，降低推理成本。vLLM 项目团队对此表示期待，并希望开发者能进一步扩展其功能。

AI产品智能体 vLLM 推理优化社区框架开源/仓库

推荐理由：Inferoa 把推理成本优化直接嵌入智能体循环，做智能体应用或自托管模型的开发者值得关注，能帮你省下不少推理开销。

12:09

12:09

vLLM@vllm_project

精选

vLLM 宣布对 Cohere 的 North Mini Code 模型提供 Day-0 支持，该模型是一个开源的编码模型，专为智能体工作流设计。模型采用 Mixture-of-Experts 架构，总参数量 30B，活跃参数 3B，支持 256K 上下文和 64K 最大生成长度。它具备推理、工具使用和结构化输出能力，可直接通过最新稳定版 vLLM 部署。这一支持让开发者能快速在 vLLM 上运行该模型，用于构建复杂的智能体应用。

AI产品 vLLM Cohere North Mini Code 编码模型智能体

推荐理由：做智能体工作流和编码应用的开发者，现在可以直接用 vLLM 部署 Cohere 的 North Mini Code 模型，省去适配麻烦，建议试试。

12:09

12:09

vLLM@vllm_project

精选

vLLM 项目宣布推出 vime，一个在 vLLM 生态中用于 LLM 后训练的强化学习框架。vime 基于 slime 的训练设计，并利用 vLLM 推理引擎，提供简单、稳定且高效的 RL 训练方案。该框架旨在与 NeMo RL、OpenRLHF、verl 等共存，为用户提供更多选择。vime 的推出丰富了 vLLM 后训练生态，推动互操作性和创新。

AI产品 vLLM RLHF 后训练强化学习开源/仓库

推荐理由：做 LLM 后训练的团队终于有了 vLLM 生态内的 RL 框架选择——vime 简单稳定，直接可用，想尝试不同 RL 框架的开发者值得关注。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？

5月28日

12:00

12:00

arXiv cs.LG@Zelin Li, Caiwen Ding

精选72°

研究发现，大语言模型的零阶（ZO）微调本质上是推理密集型负载，而非传统训练。现有实现将ZO算法运行在训练循环中，导致工作负载与运行时的不匹配。研究者通过将ZO微调的重复评分阶段部署在推理运行时（如vLLM）上，在OPT-13B模型上实现了8.13倍加速，且精度几乎无损。该方法在多个模型规模下获得2.34-7.72倍加速，并支持MeZO风格的高秩分解实验。这项工作为将轻量级适配作为推理类负载调度提供了实用路径。

论文零阶优化微调推理优化 vLLM 大语言模型

推荐理由：做LLM微调优化的团队终于可以省下GPU时间了——把ZO微调当推理跑，vLLM直接提速8倍，建议做低成本微调的人点开看看实现细节。

5月21日

11:25

11:25

arXiv cs.AI@Can Hankendi, Rana Shahout, Minlan Yu, Ayse K. Coskun

精选

PALS是一个针对大语言模型推理的功耗感知运行时系统，将GPU功耗上限作为可调控制参数，与批处理大小等软件参数联合优化。该系统结合轻量级离线功耗性能模型和反馈驱动控制器，在满足吞吐量目标的同时最大化能效。在vLLM框架中实现，无需模型重训练或API更改。在多GPU系统上，针对稠密和混合专家模型，PALS能效提升最高26.3%，功耗约束下服务质量违规减少4到7倍。这展示了将功耗控制直接集成到LLM推理运行时中的潜力，可实现能效比例和电网交互式AI系统。

论文 LLM推理功耗优化混合专家模型 vLLM 能效

推荐理由：数据中心GPU能耗是AI部署的隐形杀手，PALS把功耗从硬约束变成可调参数，做LLM服务部署的团队可以直接在vLLM上集成，省电又保性能，值得一试。

5月14日

14:13

14:13

Cohere@cohere

精选

Cohere 宣布其 W4A8 推理方案已集成到 vLLM 中，通过结合 4 位权重（低内存）和 8 位激活（高计算），在 Hopper 架构上实现了解码和预填充阶段的显著加速。相比 W4A16，TTFT（首 token 生成时间）提升高达 58%，TPOT（每 token 输出时间）提升 45%。这一优化让大模型推理在保持低内存占用的同时大幅提升计算效率，适合生产环境部署。

AI模型推理优化 vLLM W4A8 Cohere 模型部署

推荐理由：Cohere 的 W4A8 方案解决了大模型推理中内存与速度的权衡问题，做模型部署和推理优化的团队可以直接在 vLLM 中体验，值得关注。

13:27

13:27

arXiv cs.AI@Zedong Liu, Xinyang Ma, Dejun Luo, Hairui Zhao, Bing Lu, Wenjing Huang, Yida Gu, Xingchen Liu, Zheng Wei, Jinyang Liu, Dingwen Tao, Guangming Tan

精选

KVServe 是首个服务感知的自适应 KV 通信压缩框架，专为分离式 LLM 服务设计。它通过模块化策略空间、贝叶斯分析引擎和服务感知在线控制器，动态选择最优压缩方案。相比固定压缩策略，KVServe 在 PD 分离场景下实现高达 9.13 倍的 JCT 加速，在 KV 分离场景下将 TTFT 降低 32.8 倍。该框架已集成到 vLLM 中，适用于不同模型、GPU 和网络环境。

论文 KV缓存压缩分离式LLM服务 vLLM 自适应优化通信效率

推荐理由：KV 通信已成为分离式 LLM 服务的瓶颈，KVServe 用自适应压缩解决了静态策略的次优问题。做 LLM 推理系统优化或部署大规模服务的团队，这个框架值得关注，可以直接集成到 vLLM 中试用。