13:09vLLM@vllm_project精选vLLM-Omni TTS团队针对Qwen3-TTS、VoxCPM2、Higgs Audio V3、Fish Speech S2 Pro四种TTS模型分别设计了不同的优化策略。对Qwen3-TTS通过解耦连接器分块和批处理Stage-0解码预处理,在H20×2上音频吞吐量提升61.5%,P99延迟减半。VoxCPM2采用whole-forward torch.compile和CFM/LocDiT解码尾部跨请求批处理,音频吞吐量提升172%。Higgs Audio V3将多码本解码状态机迁移到GPU驻留张量,实现2.7倍加速。Fish Speech S2 Pro为纯解码路径设计了模型特定的q_len=1 Triton注意力内核。AI模型vLLMQwen3-TTSVoxCPM2Higgs Audio V3Fish Speech S2 Pro语音合成推理优化推荐理由:vLLM团队分享了优化四种主流TTS模型服务的具体技巧,包括性能提升数据和实现细节,对部署TTS服务很有参考价值。原文
15:38berryxia@berryxia精选有人用AI做了一个能实时解说世界杯的解说员,支持英语和法语切换。系统实时抓取直播画面帧,让GPT-5.4-mini理解比赛内容并生成解说词,再通过ElevenLabs以体育解说员语气播报。整个过程端到端实时调用,已能跟上比赛节奏。目前主要挑战是延迟和解说精准度,但方向是AI从辅助内容变成实时内容生产者。AI产品GPT-5.4-miniElevenLabs实时解说语音合成开源项目推荐理由:开源项目,用GPT-5.4-mini看比赛画面实时生成解说,还能切换法语,挺有意思的。原文
11:39arXiv cs.AI@Nityanand Mathur, Hamees Sayed, Wasim Madha, Apoorv Singh, Sameer Khurana, Akshat Mandloi, Sudarshan Kamath论文首次将DAAM框架适配到语音扩散模型,提出交叉注意力归因方法并应用于CapSpeech-TTS。方法提取了25层和24个ODE步骤的每个token热力图。分析了3600个(风格字幕,文本转录)组合,包含120个风格字幕和30个文本转录。结果发现风格token的时间方差低于内容/功能token,且风格关注度与F0和能量相关。注意力熵在层17达到最小值,与风格重要性峰值同时出现。论文CapSpeech-TTSDAAM交叉注意力风格字幕语音合成推荐理由:这篇把视觉归因方法搬到语音合成里,让你看清每个词怎么影响声音,对理解可控TTS特别有用。原文
11:09arXiv cs.AI@Rostislav Makarov, Timo Gerkmann该研究提出一种将传统语音分类器改造为扩散生成主干的方法。从冻结的噪声条件分类器(在log-Mel频谱上)开始,附加一个轻量子网络来复用中间分类器表示,仅训练该子网络,使用去噪得分匹配目标。这种方法实现了单主干模型的条件语音生成,在保持语音质量的同时减少了内存占用和计算成本。论文语音分类器扩散模型条件生成单主干模型语音合成推荐理由:这篇论文教你用一个现成的语音分类器直接生成语音,省掉单独训练扩散模型,更轻量高效。原文
01:29xAI@xai精选Vapi 的 Humanness Index 盲测显示,xAI 的 Grok TTS 模型以 96 分(满分 100)位居榜首,仅比人类真实语音低 4 分。该测试将同一段语音用不同模型克隆后,让听众盲评打分。Grok TTS 在多家主要语音模型中表现最接近真人。AI模型Grok TTSxAI语音合成Humanness Index文本转语音推荐理由:xAI 的 Grok TTS 在语音盲测中拿了 96 分,离真人只差 4 分,想听最像人说话的 AI 可以试试。原文
15:02Ate-a-Pi@svpino一段与AI语音代理的对话显示,听者难以分辨对话对象是AI还是真人。该对话使用了Cartesia的模型,被其称为“目前世界第一”。这种自然度使得传统呼叫中心可能面临生存危机。AI产品Cartesia语音合成AI语音代理呼叫中心推荐理由:Cartesia的AI语音模型太逼真了,和真人对话几乎没区别,呼叫中心真的要小心了。原文
02:02Jerry Liu@jerryjliu0Karan Goel 团队发布 Sonic-3.5(文本转语音)和 Ink-2(语音转文本)两种流式模型。新架构实现了速度和质量的突破,将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。AI模型Sonic-3.5Ink-2语音识别语音合成流式模型推荐理由:Karan Goel 发了两个新模型,Sonic-3.5 做 TTS 排名第一,Ink-2 做 STT 也是第一,说是唯一一家听说都做到顶的。做语音智能体的话看看。原文
16:44AI Will@FinanceYF5在 Build 大会上,某团队一次性发布了七款新模型,覆盖推理、代码生成、图像处理、语音转录和语音合成等核心能力。这些模型从零构建,采用干净的数据血统,追求极致效率,并作为一个模型家族无缝协作。此举展示了多模态 AI 模型家族化发展的新趋势,为开发者提供了更全面的工具链。AI产品推理模型代码生成图像生成语音合成多模态推荐理由:多模态模型家族化是当前 AI 发展的关键方向,做全栈 AI 应用的开发者可以直接关注这七款模型如何协作,提升开发效率。原文
08:25OpenRouter@OpenRouterAIOpenRouter 宣布上线微软三款新 AI 模型:MAI-Image-2.5(图像生成)、MAI-Transcribe-1.5(语音转文字)和 MAI-Voice-2(语音合成)。这些模型通过 OpenRouter 平台可直接调用,降低了开发者使用微软最新 AI 能力的门槛。此举意味着开发者无需单独申请 Azure 权限,即可在统一 API 下体验微软的多模态模型。对于需要图像生成、语音识别或语音合成的团队,这是一个便捷的新选择。AI产品微软OpenRouter图像生成语音识别语音合成5 个信源在谈推荐理由:微软的多模态模型终于能在 OpenRouter 上直接调用了,做图像生成、语音转文字或语音合成的开发者可以省去 Azure 申请流程,直接上手试。原文
02:26IT之家(博客/媒体)83°微软在 Build 2026 大会上发布自研 AI 模型系列,包括首款高级推理模型 MAI-Thinking-1。该模型为中等规模,在软件工程基准测试中达到业界领先水平,并承诺完全自研、未使用第三方蒸馏数据。同时发布的还有图像生成模型 MAI-Image 2.5、语音转写模型 MAI-Transcribe-1.5(速度达竞品五倍)、语音合成模型 MAI-Voice-2 及编程辅助模型 MAI-Code-1。MAI-Code-1 已集成到 GitHub Copilot 和 VS Code 中。这标志着微软在推理、图像、语音和编程等 AI 领域全面布局自研模型。AI模型推理模型微软MAI-Thinking-1编程助手语音合成推荐理由:微软终于拿出了自己的推理模型,而且强调纯自研、不蒸馏,这对关注模型自主可控的开发者是个信号。做软件工程或编程的团队可以关注 MAI-Code-1 在 Copilot 中的实际表现,值得一试。原文
23:59ElevenLabs@elevenlabsio精选ElevenLabs在华沙Summit上预览了设备端文本转语音(on-device TTS)新模型架构,能在有限硬件上离线实现人类级质量。该模型不需要互联网连接,直接在设备上运行。具体硬件要求和延迟数据未在原文中透露。AI产品ElevenLabs文本转语音离线语音合成推荐理由:离线语音合成,质量媲美真人原文
11:31Geek@geekbbDeepSeek 在 X 平台发文感谢小米 MiMo,宣布 MiMo-V2.5 系列 API 价格永久降低,最高降幅达 99%,并统一了所有上下文长度的定价。同时,MiMo Token 计划升级,同等价格下可用 token 数量增加 5-8 倍,计费规则更简单透明。现有用户的 Token Plan 积分将全部重置,MiMo-V2.5-TTS 在限定时间内免费。这些改进得益于 MiMo 堆栈的推理优化和服务效率提升,相关技术博客后续发布。AI产品DeepSeek小米 MiMoAPI 降价推理优化语音合成推荐理由:API 价格直降 99% 对开发者是实打实的成本利好,做 AI 应用集成或语音合成的团队可以直接切换,省下预算做更多实验。原文
17:49IT之家(博客/媒体)精选网易有道宣布将“子曰”大模型 4.0 的核心双引擎——多模态模型(27B 参数)和语音合成(TTS)模型面向全球全量开源。多模态模型在视觉数理问题上达到行业顶尖水平,纯文本中文数理难题准确率达 81.4%,并通过思维链重构将输出长度压缩 43.2%,降低推理成本。TTS 模型支持跨语种音色情感迁移克隆,3 秒内完成零样本原声复制,准确度超 97%,覆盖 14 种语言。开发者可免费下载、部署并二次开发,适合教育场景和语音应用。AI模型开源/仓库多模态模型语音合成教育场景网易有道推荐理由:教育场景的开发者终于有了可商用的开源多模态模型——27B 参数在数理问题上达到 SOTA,且推理成本更低;TTS 模型 3 秒克隆音色并跨语种带情感,做语音助手或教育产品的团队可以直接下载试试。原文
08:06IT之家(博客/媒体)腾讯会议正式推出“AI 同传”功能,支持模仿用户音色,时延低于3秒,实现发言与翻译几乎同步。每位参会者可独立开启同传,选择自己需要的语言,收听时仿佛用户本人用流利外语发言。该功能无需插件或外接设备,并支持调节同传与原声音量,方便核验关键信息。同时,AI 同传与文字转写、会中字幕打通,实现跨语言会议的可听、可译、可见、可记。AI产品腾讯会议AI同传语音合成实时翻译音色模仿推荐理由:跨国会议和远程协作的团队终于有了低延迟、高拟真的同传方案——不用外挂设备,还能模仿发言人音色,做国际业务或跨语言沟通的可以直接在腾讯会议里开启试试。原文
08:01ElevenLabs@elevenlabsioElevenLabs 发布了 Speech Engine,允许开发者通过一条提示词将现有的聊天智能体转换为完整的语音智能体。该引擎整合了 ElevenLabs 领先的语音合成、转录和语音编排模型,形成一个统一管道,各组件专为协同工作而优化。这意味着开发者无需从头构建语音系统,即可快速为聊天机器人添加语音交互能力。该产品旨在降低语音 AI 开发门槛,加速语音助手、客服等应用落地。AI产品语音智能体ElevenLabs开发者工具语音合成提示词工程推荐理由:做语音助手或客服机器人的开发者,现在可以用一条提示词把聊天智能体变成语音智能体,省去集成多个模型的麻烦,值得直接上手试。原文
07:59ElevenLabs@elevenlabsioElevenLabs 宣布将阿尔伯特·爱因斯坦的语音引入平台,并推出一个基于其书面档案的智能体,能够以爱因斯坦标志性的声音进行互动。这一功能将语音智能体应用于教育领域,让用户能够与历史人物进行对话式学习,为知识传递带来全新维度。该智能体目前已在 ElevenLabs 上线,支持语音交互。AI产品语音智能体ElevenLabs教育历史人物语音合成推荐理由:做教育科技或语音交互的团队值得关注——ElevenLabs 把历史人物语音化,让学习从单向阅读变成双向对话,直接可用的场景比想象中多。原文
12:10OpenRouter@OpenRouterAIxAI 的 Grok 创意套件新增三个模型,已在 OpenRouter 平台上线。Grok Imagine Image Quality 支持照片级图像生成与编辑;Grok Imagine Video 可从文本、图像或参考素材生成短视频;Grok Voice TTS 1.0 提供 5 种语音、覆盖 20 多种语言。这些模型扩展了 Grok 在图像、视频和语音合成方面的能力,为开发者和创作者提供了更多选择。AI产品Grok图像生成视频生成语音合成OpenRouter推荐理由:xAI 一口气推出图像、视频、语音三款模型,做内容创作或 AI 应用的开发者可以直接在 OpenRouter 上调用,省去部署成本,建议试试。原文
21:35MiniMax: News(资讯)MiniMax 发布了其最新语音模型 Speech 2.8,在语音合成质量、自然度和实时性上均有显著提升。该模型支持多语言、多情感和多种说话风格,能够生成高度逼真的语音。Speech 2.8 在多个基准测试中表现优异,为语音交互、内容创作等场景提供了更强大的工具。AI模型语音合成MiniMaxSpeech 2.8多语言情感表达推荐理由:语音合成质量再上台阶,做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音,建议体验一下效果。原文
12:33MiniMax: News(资讯)精选MiniMax 发布了新一代语音模型 Speech 2.5,支持多语言语音合成和情感控制。该模型在语音自然度和实时性上相比 Speech 2.0 有显著提升。它能够生成带笑、怒、悲等多种情绪的语音,并支持角色音色定制。MiniMax 同时开放了 API 接口供开发者集成。AI模型MiniMaxSpeech 2.5语音合成多语言推荐理由:MiniMax 语音模型升级了,能控制情感和角色音色原文
03:42Together AI@togethercomputeTogether AI发布了Voice Finder工具,支持搜索、筛选和试听超过600种语音,覆盖主流TTS模型。用户可以通过描述需求或上传音频样本来快速找到适合应用的声音,显著提升AI语音应用的开发效率。该工具旨在帮助AI开发者更高效地集成语音功能,减少手动筛选的时间成本,推动语音交互应用的普及。AI产品语音合成TTS模型搜索Together AI推荐理由:该工具简化了语音选择流程,对开发者构建语音应用有直接帮助,尤其适用于需要多选项测试的场景。原文
00:33MiniMax: News(资讯)MiniMax 在其官网展示了最新模型和产品的更新,包括文本模型 MiniMax M2.7 (NEW)、语音模型 MiniMax Speech 2.8 (NEW)、视频模型 MiniMax Hailuo 2.3 / 2.3 Fast (NEW) 以及音乐模型 MiniMax Music 2.6 和 2.5+ (NEW)。此外,AI 原生应用 Agent 也被标注为新产品状态。这些更新表明 MiniMax 正在快速迭代其多模态 AI 能力,涵盖文本、语音、视频和音乐生成领域。对于开发者和企业用户,这意味着可以通过开放平台获得更先进的 AI 能力,用于构建多样化的应用场景。AI产品MiniMax多模态文本生成语音合成视频生成推荐理由:此次更新体现了 MiniMax 在 AI 多模态领域的持续投入,特别是 M2.7 和 Speech 2.8 的推出可能带来文本理解和语音合成性能的提升,值得关注其在开放平台上的实际表现。原文
22:18阶跃星辰 Stepfun@Stepfun_AIStepfun 发布的 StepAudio 2.5 TTS 模型在 Artificial Analysis Speech Arena 盲测中获中文 TTS 最高排名,全球排名前三。该模型在真实听众盲听测试中表现出色,超越了众多国际竞品。这标志着中文语音合成技术已达到全球领先水平,对智能语音助手、有声内容创作等领域具有重要价值。StepAudio 2.5 展现了国产模型在细分赛道上的竞争力。AI模型StepAudio 2.5 TTS语音合成中文TTS盲测Artificial Analysis推荐理由:StepAudio 2.5 TTS 在公开盲测中击败国际竞品,证明国产TTS模型已具备全球竞争力,对AI语音应用开发者具有参考价值。原文