网易开源Confucius4-TTS:3秒音频克隆音色,14种语言无口音

网易发布 Confucius4-TTS 开源引擎:3 秒音频即可克隆音色,支持 14 种语言无口音

精选理由

网易新开源Confucius4-TTS,3秒克隆你的声音,还能用这个声音说14种外语没口音,全开源随便用,做配音超方便。

AI 摘要

网易有道发布Confucius4-TTS,这是业内首个支持14种语言跨语种无口音的开源TTS模型。用户仅需提供3秒音频素材,无需参考文本即可完成零样本语音克隆,克隆音色与原声相似度超85%,准确度达97%。模型采用GPT式语义大模型搭配Flow Matching流匹配生成框架,支持音频Prompt情感克隆迁移,可跨语种保留语调韵律。全量开源(Apache协议),提供54GB完整资源包,商用无限制,适用于多语种内容生成、数字人配音等场景。

AI 翻译 · 中文

网易有道发布Confucius4-TTS,这是业内首个支持14种语言跨语种无口音的开源TTS模型。用户仅需提供3秒音频素材,无需参考文本即可完成零样本语音克隆,克隆音色与原声相似度超85%,准确度达97%。模型采用GPT式语义大模型搭配Flow Matching流匹配生成框架,支持音频Prompt情感克隆迁移,可跨语种保留语调韵律。全量开源(Apache协议),提供54GB完整资源包,商用无限制,适用于多语种内容生成、数字人配音等场景。

IT之家IT之家 6 月 23 日消息,网易有道今日发文,宣布推出“子曰 4.0”TTS 语音合成引擎 ——Confucius4-TTS。 据网易有道官方介绍,Confucius4-TTS 是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。 在技术性能方面,Confucius4-TTS 实现了零样本语音克隆能力。用户仅需提供 3 秒音频素材,无需参考文本与前期训练,模型即可完成音色克隆,克隆音色与原声相似度超过