全部 AI 动态 · AI 热点

6月18日

15:10

15:10

LMSYS Org (SGLang)@lmsysorg

精选71°

SGLang-Omni 现已支持 MOSS-TTS-Local Transformer v1.5 模型。该模型基于 Qwen3-4B 骨干，可生成 48kHz 立体声语音。支持零样本语音克隆和原生流式，覆盖 31 种语言，训练数据约 400 万小时。非流式场景下达到 5.976 req/s，RTF 0.644，WER 1.75%（SeedTTS English，2×GPU）。采用三阶段管线：参考编码、AR 引擎、流式声码器。

AI模型 MOSS-TTS SGLang-Omni Qwen3-4B 语音克隆开源模型

推荐理由：SGLang-Omni 刚上线 MOSS-TTS v1.5，开源、零样本克隆声音，支持31种语言，速度也不错，玩玩看。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

02:32

02:32

Pika Labs@pika_labs

Pika Labs 通过 MCP 接口推出 Language Swap 技能，允许用户将视频中的语音替换为其他语言，同时保留原声的音色和口型。该功能支持 40 多种语言，可自动生成字幕并选择多种样式。创作者只需一条指令即可让视频中的自己说任何语言，极大降低了多语言内容制作的门槛。目前该功能已在 Pika MCP 中可用。

AI产品 Pika MCP/工具语音克隆视频编辑多语言

推荐理由：做多语言视频内容的创作者终于可以省去重新录制和配音的麻烦——Pika 的 Language Swap 直接克隆你的声音并换语言，还带字幕，做短视频或跨国营销的团队值得立刻试试。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月22日

15:16

15:16

小互@imxiaohu

精选

网易有道今日开源 Confucius4 双模型，分别专注于数学视觉推理和语音克隆任务。不同于其他公司追求参数规模，有道更注重工程精度和落地成本。开源直接提供完整权重，而非仅开放 API，降低了开发者使用门槛。数学视觉推理模型可处理几何、图表等复杂视觉数学问题，语音克隆模型则能实现高保真声音复制。此举有望推动多模态和语音技术在教育和内容创作领域的实际应用。

AI模型开源/仓库多模态语音克隆数学推理 Confucius4

推荐理由：做教育 AI 或语音应用的开发者可以直接拿到完整权重，省去从零训练的成本，建议试试这两个模型的实际效果。

5月14日

13:36

13:36

xAI@xai

xAI 宣布 Grok Voice API 正式上线语音克隆功能，支持生成带有丰富自然情感的语音。该功能允许用户通过 API 调用克隆人类声音，并用于各种应用场景。xAI 还发布了一段音频测试，让听众分辨人类和 AI 克隆的声音。这一进展展示了 AI 语音合成技术的成熟度提升，可能对语音助手、内容创作和客户服务等领域产生重要影响。

AI产品语音克隆 Grok API 情感合成 xAI

推荐理由：语音克隆技术终于有了自然情感，做语音应用或内容创作的开发者可以直接用 Grok Voice API 试试，效果可能超出预期。