精选理由
做多语言内容或语音应用的团队终于有了一个能控制情绪、长文本不跑调的TTS模型,直接上OpenRouter就能用,值得试试。
微软发布MAI-Voice-2,一款支持15种语言的情感可控文本转语音模型,可表达兴奋、尴尬、耳语等情绪,并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用,已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。
AI 翻译 · 中文
微软发布MAI-Voice-2,一款支持15种语言的情感可控文本转语音模型,可表达兴奋、尴尬、耳语等情绪,并在长文本中保持稳定的说话人身份。该模型与MAI-Transcribe-1.5语音识别模型搭配使用,已在OpenRouter上线。这为多语言内容创作、有声读物、语音助手等场景提供了更自然、富有表现力的语音合成能力。
MAI-Voice-2: expressive text-to-speech across 15 languages with emotional control (excited, embarrassed, whispered) and stable speaker identity across long-form content. Pairs with MAI-Transcribe-1.5. Use it now: openrou…