AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:语音克隆×
6月18日
15:10
15:10LMSYS Org (SGLang)@lmsysorg
精选71°
SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干,可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式,覆盖 31 种语言,训练数据约 400 万小时。非流式场景下达到 5.976 req/s,RTF 0.644,WER 1.75%(SeedTTS English,2×GPU)。采用三阶段管线:参考编码、AR 引擎、流式声码器。
AI模型MOSS-TTSSGLang-OmniQwen3-4B语音克隆开源模型

推荐理由:SGLang-Omni 刚上线 MOSS-TTS v1.5,开源、零样本克隆声音,支持31种语言,速度也不错,玩玩看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
02:32
02:32Pika Labs@pika_labs
Pika Labs 通过 MCP 接口推出 Language Swap 技能,允许用户将视频中的语音替换为其他语言,同时保留原声的音色和口型。该功能支持 40 多种语言,可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言,极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。
AI产品PikaMCP/工具语音克隆视频编辑多语言

推荐理由:做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言,还带字幕,做短视频或跨国营销的团队值得立刻试试。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月22日
15:16
15:16小互@imxiaohu
精选
网易有道今日开源 Confucius4 双模型,分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模,有道更注重工程精度和落地成本。开源直接提供完整权重,而非仅开放 API,降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题,语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。
AI模型开源/仓库多模态语音克隆数学推理Confucius4

推荐理由:做教育 AI 或语音应用的开发者可以直接拿到完整权重,省去从零训练的成本,建议试试这两个模型的实际效果。
原文
5月14日
13:36
13:36xAI@xai
xAI 宣布 Grok Voice API 正式上线语音克隆功能,支持生成带有丰富自然情感的语音。该功能允许用户通过 API 调用克隆人类声音,并用于各种应用场景。xAI 还发布了一段音频测试,让听众分辨人类和 AI 克隆的声音。这一进展展示了 AI 语音合成技术的成熟度提升,可能对语音助手、内容创作和客户服务等领域产生重要影响。
AI产品语音克隆GrokAPI情感合成xAI

推荐理由:语音克隆技术终于有了自然情感,做语音应用或内容创作的开发者可以直接用 Grok Voice API 试试,效果可能超出预期。
原文
精选全部日报登录