网易开源Confucius4-TTS：3秒音频克隆音色，14种语言无口音

精选理由

网易新开源Confucius4-TTS，3秒克隆你的声音，还能用这个声音说14种外语没口音，全开源随便用，做配音超方便。

AI 摘要

网易有道发布Confucius4-TTS，这是业内首个支持14种语言跨语种无口音的开源TTS模型。用户仅需提供3秒音频素材，无需参考文本即可完成零样本语音克隆，克隆音色与原声相似度超85%，准确度达97%。模型采用GPT式语义大模型搭配Flow Matching流匹配生成框架，支持音频Prompt情感克隆迁移，可跨语种保留语调韵律。全量开源（Apache协议），提供54GB完整资源包，商用无限制，适用于多语种内容生成、数字人配音等场景。

AI 翻译 · 中文

IT之家IT之家 6 月 23 日消息，网易有道今日发文，宣布推出“子曰 4.0”TTS 语音合成引擎 ——Confucius4-TTS。据网易有道官方介绍，Confucius4-TTS 是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。在技术性能方面，Confucius4-TTS 实现了零样本语音克隆能力。用户仅需提供 3 秒音频素材，无需参考文本与前期训练，模型即可完成音色克隆，克隆音色与原声相似度超过…

阅读原文