AI模型精选

网易有道“子曰 4”多模态与 TTS 模型全量开源

网易有道“子曰 4”多模态模型、语音合成模型全量开源

精选理由

教育场景的开发者终于有了可商用的开源多模态模型——27B 参数在数理问题上达到 SOTA,且推理成本更低;TTS 模型 3 秒克隆音色并跨语种带情感,做语音助手或教育产品的团队可以直接下载试试。

AI 摘要

网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型(27B 参数)和语音合成(TTS)模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率达 81.4%,并通过思维链重构将输出长度压缩 43.2%,降低推理成本。TTS 模型支持跨语种音色情感迁移克隆,3 秒内完成零样本原声复制,准确度超 97%,覆盖 14 种语言。开发者可免费下载、部署并二次开发,适合教育场景和语音应用。

AI 翻译 · 中文

网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型(27B 参数)和语音合成(TTS)模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率达 81.4%,并通过思维链重构将输出长度压缩 43.2%,降低推理成本。TTS 模型支持跨语种音色情感迁移克隆,3 秒内完成零样本原声复制,准确度超 97%,覆盖 14 种语言。开发者可免费下载、部署并二次开发,适合教育场景和语音应用。

IT之家IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成(TTS)模型”, 正式面向全球全量开源 。开发者可以免费下载、部署,并基于此进行二次开发。 此次开源的“子曰 4”多模态模型(27B 参数规模)面向教育场景,支持视觉输入的数理能力,做到了行业顶尖水平(SOTA)。 在同等参数的规模模型中,处理带图表的 高难度视觉数理问题 。 纯文本的中文数理难题, 准确率 81