全部 AI 动态 · AI 热点

6月29日

13:09

13:09

vLLM@vllm_project

精选

vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理，在H20×2上音频吞吐量提升61.5%，P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理，音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量，实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。

AI模型 vLLM Qwen3-TTS VoxCPM2 Higgs Audio V3 Fish Speech S2 Pro 语音合成推理优化

推荐理由：vLLM团队分享了优化四种主流TTS模型服务的具体技巧，包括性能提升数据和实现细节，对部署TTS服务很有参考价值。

6月26日

15:38

15:38

berryxia@berryxia

精选

有人用AI做了一个能实时解说世界杯的解说员，支持英语和法语切换。系统实时抓取直播画面帧，让GPT-5.4-mini理解比赛内容并生成解说词，再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用，已能跟上比赛节奏。目前主要挑战是延迟和解说精准度，但方向是AI从辅助内容变成实时内容生产者。

AI产品 GPT-5.4-mini ElevenLabs 实时解说语音合成开源项目

推荐理由：开源项目，用GPT-5.4-mini看比赛画面实时生成解说，还能切换法语，挺有意思的。

6月19日

01:29

01:29

xAI@xai

精选

Vapi 的 Humanness Index 盲测显示，xAI 的 Grok TTS 模型以 96 分（满分 100）位居榜首，仅比人类真实语音低 4 分。该测试将同一段语音用不同模型克隆后，让听众盲评打分。Grok TTS 在多家主要语音模型中表现最接近真人。

AI模型 Grok TTS xAI 语音合成 Humanness Index 文本转语音

推荐理由：xAI 的 Grok TTS 在语音盲测中拿了 96 分，离真人只差 4 分，想听最像人说话的 AI 可以试试。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

15:02

15:02

Ate-a-Pi@svpino

一段与AI语音代理的对话显示，听者难以分辨对话对象是AI还是真人。该对话使用了Cartesia的模型，被其称为“目前世界第一”。这种自然度使得传统呼叫中心可能面临生存危机。

AI产品 Cartesia 语音合成 AI语音代理呼叫中心

推荐理由：Cartesia的AI语音模型太逼真了，和真人对话几乎没区别，呼叫中心真的要小心了。

02:02

02:02

Jerry Liu@jerryjliu0

Karan Goel 团队发布 Sonic-3.5（文本转语音）和 Ink-2（语音转文本）两种流式模型。新架构实现了速度和质量的突破，将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。

AI模型 Sonic-3.5 Ink-2 语音识别语音合成流式模型

推荐理由：Karan Goel 发了两个新模型，Sonic-3.5 做 TTS 排名第一，Ink-2 做 STT 也是第一，说是唯一一家听说都做到顶的。做语音智能体的话看看。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

16:44

16:44

AI Will@FinanceYF5

在 Build 大会上，某团队一次性发布了七款新模型，覆盖推理、代码生成、图像处理、语音转录和语音合成等核心能力。这些模型从零构建，采用干净的数据血统，追求极致效率，并作为一个模型家族无缝协作。此举展示了多模态 AI 模型家族化发展的新趋势，为开发者提供了更全面的工具链。

AI产品推理模型代码生成图像生成语音合成多模态

推荐理由：多模态模型家族化是当前 AI 发展的关键方向，做全栈 AI 应用的开发者可以直接关注这七款模型如何协作，提升开发效率。

6月3日

08:25

08:25

OpenRouter@OpenRouterAI

OpenRouter 宣布上线微软三款新 AI 模型：MAI-Image-2.5（图像生成）、MAI-Transcribe-1.5（语音转文字）和 MAI-Voice-2（语音合成）。这些模型通过 OpenRouter 平台可直接调用，降低了开发者使用微软最新 AI 能力的门槛。此举意味着开发者无需单独申请 Azure 权限，即可在统一 API 下体验微软的多模态模型。对于需要图像生成、语音识别或语音合成的团队，这是一个便捷的新选择。

AI产品微软 OpenRouter 图像生成语音识别语音合成

推荐理由：微软的多模态模型终于能在 OpenRouter 上直接调用了，做图像生成、语音转文字或语音合成的开发者可以省去 Azure 申请流程，直接上手试。

6月2日

23:59

23:59

ElevenLabs@elevenlabsio

精选

ElevenLabs在华沙Summit上预览了设备端文本转语音（on-device TTS）新模型架构，能在有限硬件上离线实现人类级质量。该模型不需要互联网连接，直接在设备上运行。具体硬件要求和延迟数据未在原文中透露。

AI产品 ElevenLabs 文本转语音离线语音合成

推荐理由：离线语音合成，质量媲美真人

5月27日

11:31

11:31

Geek@geekbb

DeepSeek 在 X 平台发文感谢小米 MiMo，宣布 MiMo-V2.5 系列 API 价格永久降低，最高降幅达 99%，并统一了所有上下文长度的定价。同时，MiMo Token 计划升级，同等价格下可用 token 数量增加 5-8 倍，计费规则更简单透明。现有用户的 Token Plan 积分将全部重置，MiMo-V2.5-TTS 在限定时间内免费。这些改进得益于 MiMo 堆栈的推理优化和服务效率提升，相关技术博客后续发布。

AI产品 DeepSeek 小米 MiMo API 降价推理优化语音合成

推荐理由：API 价格直降 99% 对开发者是实打实的成本利好，做 AI 应用集成或语音合成的团队可以直接切换，省下预算做更多实验。

5月21日

08:01

08:01

ElevenLabs@elevenlabsio

ElevenLabs 发布了 Speech Engine，允许开发者通过一条提示词将现有的聊天智能体转换为完整的语音智能体。该引擎整合了 ElevenLabs 领先的语音合成、转录和语音编排模型，形成一个统一管道，各组件专为协同工作而优化。这意味着开发者无需从头构建语音系统，即可快速为聊天机器人添加语音交互能力。该产品旨在降低语音 AI 开发门槛，加速语音助手、客服等应用落地。

AI产品语音智能体 ElevenLabs 开发者工具语音合成提示词工程

推荐理由：做语音助手或客服机器人的开发者，现在可以用一条提示词把聊天智能体变成语音智能体，省去集成多个模型的麻烦，值得直接上手试。

07:59

07:59

ElevenLabs@elevenlabsio

ElevenLabs 宣布将阿尔伯特·爱因斯坦的语音引入平台，并推出一个基于其书面档案的智能体，能够以爱因斯坦标志性的声音进行互动。这一功能将语音智能体应用于教育领域，让用户能够与历史人物进行对话式学习，为知识传递带来全新维度。该智能体目前已在 ElevenLabs 上线，支持语音交互。

AI产品语音智能体 ElevenLabs 教育历史人物语音合成

推荐理由：做教育科技或语音交互的团队值得关注——ElevenLabs 把历史人物语音化，让学习从单向阅读变成双向对话，直接可用的场景比想象中多。

5月19日

12:10

12:10

OpenRouter@OpenRouterAI

xAI 的 Grok 创意套件新增三个模型，已在 OpenRouter 平台上线。Grok Imagine Image Quality 支持照片级图像生成与编辑；Grok Imagine Video 可从文本、图像或参考素材生成短视频；Grok Voice TTS 1.0 提供 5 种语音、覆盖 20 多种语言。这些模型扩展了 Grok 在图像、视频和语音合成方面的能力，为开发者和创作者提供了更多选择。

AI产品 Grok 图像生成视频生成语音合成 OpenRouter

推荐理由：xAI 一口气推出图像、视频、语音三款模型，做内容创作或 AI 应用的开发者可以直接在 OpenRouter 上调用，省去部署成本，建议试试。

5月13日

03:42

03:42

Together AI@togethercompute

Together AI发布了Voice Finder工具，支持搜索、筛选和试听超过600种语音，覆盖主流TTS模型。用户可以通过描述需求或上传音频样本来快速找到适合应用的声音，显著提升AI语音应用的开发效率。该工具旨在帮助AI开发者更高效地集成语音功能，减少手动筛选的时间成本，推动语音交互应用的普及。

AI产品语音合成 TTS 模型搜索 Together AI

推荐理由：该工具简化了语音选择流程，对开发者构建语音应用有直接帮助，尤其适用于需要多选项测试的场景。