AI模型精选71°

SGLang-Omni 集成 MOSS-TTS-Local Transformer v1.5 开源语音克隆模型

🎉 SGLang-Omni now serves MOSS-TTS-Local Transforme…

精选理由

SGLang-Omni 刚上线 MOSS-TTS v1.5,开源、零样本克隆声音,支持31种语言,速度也不错,玩玩看。

AI 摘要

SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干,可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式,覆盖 31 种语言,训练数据约 400 万小时。非流式场景下达到 5.976 req/s,RTF 0.644,WER 1.75%(SeedTTS English,2×GPU)。采用三阶段管线:参考编码、AR 引擎、流式声码器。

AI 翻译 · 中文

SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干,可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式,覆盖 31 种语言,训练数据约 400 万小时。非流式场景下达到 5.976 req/s,RTF 0.644,WER 1.75%(SeedTTS English,2×GPU)。采用三阶段管线:参考编码、AR 引擎、流式声码器。

LMSYS Org (SGLang)🎉 SGLang-Omni now serves MOSS-TTS-Local Transformer v1.5 from @Open_MOSS on day 0! This is an open 48 kHz stereo TTS model built on a Qwen3-4B backbone. ✅ Zero-shot voice cloning + native streaming at 48 kHz stereo ✅ 31