13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文