全部 AI 动态 · AI 热点

6月29日

13:09

vLLM@vllm_project

精选

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

AI模型 vLLM Qwen3-TTS VoxCPM2 Higgs Audio V3 Fish Speech S2 Pro 语音合成推理优化

推荐理由：vLLM团队分享了优化四种主流TTS模型服务的具体技巧，包括性能提升数据和实现细节，对部署TTS服务很有参考价值。

原文

6月26日

15:38

berryxia@berryxia

精选

有人用AI做了一个能实时解说世界杯的解说员，支持英语和法语切换。系统实时抓取直播画面帧，让GPT-5.4-mini理解比赛内容并生成解说词，再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用，已能跟上比赛节奏。目前主要挑战是延迟和解说精准度，但方向是AI从辅助内容变成实时内容生产者。

AI产品 GPT-5.4-mini ElevenLabs 实时解说语音合成开源项目

推荐理由：开源项目，用GPT-5.4-mini看比赛画面实时生成解说，还能切换法语，挺有意思的。

原文

6月19日

11:39

arXiv cs.AI@Nityanand Mathur, Hamees Sayed, Wasim Madha, Apoorv Singh, Sameer Khurana, Akshat Mandloi, Sudarshan Kamath

论文首次将DAAM框架适配到语音扩散模型，提出交叉注意力归因方法并应用于CapSpeech-TTS。方法提取了25层和24个ODE步骤的每个token热力图。分析了3600个（风格字幕，文本转录）组合，包含120个风格字幕和30个文本转录。结果发现风格token的时间方差低于内容/功能token，且风格关注度与F0和能量相关。注意力熵在层17达到最小值，与风格重要性峰值同时出现。

论文 CapSpeech-TTS DAAM 交叉注意力风格字幕语音合成

推荐理由：这篇把视觉归因方法搬到语音合成里，让你看清每个词怎么影响声音，对理解可控TTS特别有用。

原文

11:09

arXiv cs.AI@Rostislav Makarov, Timo Gerkmann

该研究提出一种将传统语音分类器改造为扩散生成主干的方法。从冻结的噪声条件分类器（在log-Mel频谱上）开始，附加一个轻量子网络来复用中间分类器表示，仅训练该子网络，使用去噪得分匹配目标。这种方法实现了单主干模型的条件语音生成，在保持语音质量的同时减少了内存占用和计算成本。

论文语音分类器扩散模型条件生成单主干模型语音合成

推荐理由：这篇论文教你用一个现成的语音分类器直接生成语音，省掉单独训练扩散模型，更轻量高效。

原文

01:29

xAI@xai

精选

Vapi 的 Humanness Index 盲测显示，xAI 的 Grok TTS 模型以 96 分（满分 100）位居榜首，仅比人类真实语音低 4 分。该测试将同一段语音用不同模型克隆后，让听众盲评打分。Grok TTS 在多家主要语音模型中表现最接近真人。

AI模型 Grok TTS xAI 语音合成 Humanness Index 文本转语音

推荐理由：xAI 的 Grok TTS 在语音盲测中拿了 96 分，离真人只差 4 分，想听最像人说话的 AI 可以试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

15:02

Ate-a-Pi@svpino

一段与AI语音代理的对话显示，听者难以分辨对话对象是AI还是真人。该对话使用了Cartesia的模型，被其称为“目前世界第一”。这种自然度使得传统呼叫中心可能面临生存危机。

AI产品 Cartesia 语音合成 AI语音代理呼叫中心

推荐理由：Cartesia的AI语音模型太逼真了，和真人对话几乎没区别，呼叫中心真的要小心了。

原文

02:02

Jerry Liu@jerryjliu0

Karan Goel 团队发布 Sonic-3.5（文本转语音）和 Ink-2（语音转文本）两种流式模型。新架构实现了速度和质量的突破，将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。

AI模型 Sonic-3.5 Ink-2 语音识别语音合成流式模型

推荐理由：Karan Goel 发了两个新模型，Sonic-3.5 做 TTS 排名第一，Ink-2 做 STT 也是第一，说是唯一一家听说都做到顶的。做语音智能体的话看看。

原文

6月12日