15:10LMSYS Org (SGLang)@lmsysorg精选71°SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干,可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式,覆盖 31 种语言,训练数据约 400 万小时。非流式场景下达到 5.976 req/s,RTF 0.644,WER 1.75%(SeedTTS English,2×GPU)。采用三阶段管线:参考编码、AR 引擎、流式声码器。AI模型MOSS-TTSSGLang-OmniQwen3-4B语音克隆开源模型推荐理由:SGLang-Omni 刚上线 MOSS-TTS v1.5,开源、零样本克隆声音,支持31种语言,速度也不错,玩玩看。原文
02:32Pika Labs@pika_labsPika Labs 通过 MCP 接口推出 Language Swap 技能,允许用户将视频中的语音替换为其他语言,同时保留原声的音色和口型。该功能支持 40 多种语言,可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言,极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。AI产品PikaMCP/工具语音克隆视频编辑多语言推荐理由:做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言,还带字幕,做短视频或跨国营销的团队值得立刻试试。原文
15:16小互@imxiaohu精选网易有道今日开源 Confucius4 双模型,分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模,有道更注重工程精度和落地成本。开源直接提供完整权重,而非仅开放 API,降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题,语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。AI模型开源/仓库多模态语音克隆数学推理Confucius4推荐理由:做教育 AI 或语音应用的开发者可以直接拿到完整权重,省去从零训练的成本,建议试试这两个模型的实际效果。原文
13:36xAI@xaixAI 宣布 Grok Voice API 正式上线语音克隆功能,支持生成带有丰富自然情感的语音。该功能允许用户通过 API 调用克隆人类声音,并用于各种应用场景。xAI 还发布了一段音频测试,让听众分辨人类和 AI 克隆的声音。这一进展展示了 AI 语音合成技术的成熟度提升,可能对语音助手、内容创作和客户服务等领域产生重要影响。AI产品语音克隆GrokAPI情感合成xAI推荐理由:语音克隆技术终于有了自然情感,做语音应用或内容创作的开发者可以直接用 Grok Voice API 试试,效果可能超出预期。原文