网易有道「子曰4」全模态大模型开源,TTS引擎独立发布

网易有道「子曰4」全模态大模型来了,权重全量开源 这次「子曰4」不仅支持了多模态:图像/视频/语音全输入,27B可以本地化部署,尤其在学习场景表现优异 更值得一提的是这个 TTS 引擎独立开源,3...

精选理由

做音视频营销或跨语种内容分发的团队,可以直接用这个TTS引擎快速生成多语言配音,3秒克隆音色且无口音,建议试试。

AI 摘要

网易有道发布了「子曰4」全模态大模型,支持图像、视频、语音输入,27B参数可本地部署,尤其适合学习场景。同时,其TTS引擎独立开源,3秒即可完成声音采样和音色克隆,支持14种语言的跨语种生成且无口音。该模型权重已全量开源,开发者可直接使用。对于音视频营销素材的跨语种分发,这一工具能显著提升效率。

AI 翻译 · 中文

网易有道发布了「子曰4」全模态大模型,支持图像、视频、语音输入,27B参数可本地部署,尤其适合学习场景。同时,其TTS引擎独立开源,3秒即可完成声音采样和音色克隆,支持14种语言的跨语种生成且无口音。该模型权重已全量开源,开发者可直接使用。对于音视频营销素材的跨语种分发,这一工具能显著提升效率。

Yangyi网易有道「子曰4」全模态大模型来了,权重全量开源 这次「子曰4」不仅支持了多模态:图像/视频/语音全输入,27B可以本地化部署,尤其在学习场景表现优异 更值得一提的是这个 TTS 引擎独立开源,3秒即可完成声音采样,克隆音色,并支持14种语言的跨语种生成,且跨语种无口音。这对于我们做音视频营销素材跨语种分发的营销人而言,绝对是个利好 我尝试了一下用我自己的声音来朗读日语,感觉效果还挺好的,最重要的是生成快!大家可以看视频感受一下 等gi