01:01Vercel AI@vercelVercel 宣布其 AI Gateway 新增实时语音和转录能力,开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建,支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施,即可快速为应用加入语音代理功能。AI产品VercelAI Gatewayvoice agents语音识别实时交互推荐理由:Vercel 把语音代理直接做到 AI Gateway 里了,用 useRealtime 就能接入实时对话,省掉搭服务器。原文
17:55Yangyi@Yangyixxxx用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。AI模型FunASRASR语音识别LLM开源模型推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。原文
13:51Together AI@togethercomputeTogether AI 构建了基于 Parakeet 的语音转文本堆栈,每秒可处理约 302 秒音频,这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行,通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。AI模型ParakeetTogether AI语音识别推理优化速度基准推荐理由:Together AI 把 Parakeet 优化到每秒转写 302 秒音频,比别的服务快一大截,想搞语音识别的可以看看这篇系统调优拆解。原文
02:02Jerry Liu@jerryjliu0Karan Goel 团队发布 Sonic-3.5(文本转语音)和 Ink-2(语音转文本)两种流式模型。新架构实现了速度和质量的突破,将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。AI模型Sonic-3.5Ink-2语音识别语音合成流式模型推荐理由:Karan Goel 发了两个新模型,Sonic-3.5 做 TTS 排名第一,Ink-2 做 STT 也是第一,说是唯一一家听说都做到顶的。做语音智能体的话看看。原文
13:55arXiv cs.AI@Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong Baotian Hu, Min Zhang传统ASR纠错仅关注孤立语句或短上下文,但在长文本与语音交错的对话中,需要对话级上下文证据。现有方法依赖当前假设或拼接原始对话历史,难以在冗余噪声中定位稀疏纠错证据。本文提出本体记忆增强的ASR纠错框架,将交互历史组织为动态更新的本体记忆,存储实体、术语、表面变体、潜在ASR混淆及语义关系作为可检索节点。基于MAGIC-RAMC构建的RAMC-Corr数据集实验显示,该方法在10个配对骨干设置组合中9个优于直接纠错,促进更选择性、基于证据的上下文相关ASR错误纠正。论文ASR纠错本体记忆长对话上下文增强语音识别推荐理由:做语音识别或对话系统的团队,这个框架解决了长对话中ASR纠错缺乏上下文的问题,直接提升纠错准确率,值得在长交互场景中尝试。原文
13:08Guillaume Lample (Mistral)@GuillaumeLampleMistral 发布了 Voxtral 2,包含两个新模型:Voxtral Realtime(实时转录,延迟可低于 200 毫秒,Apache 2 许可)和 Voxtral Mini Transcribe 2(支持说话人分离、词级时间戳和上下文偏置)。该模型支持 13 种语言,通过 Mistral API 提供,是市场上性价比最高的转录 API 之一。AI模型MistralVoxtral 2语音识别实时转录开源/仓库推荐理由:做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。原文
17:03marktechpost@Asif Razzaq精选微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5,这是该系列的第二代。该模型支持 43 种语言,在 Artificial Analysis 排行榜上词错误率低至 2.4%,在 FLEURS 基准测试中达到最佳精度。它引入了关键词(实体)偏置功能,可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍,1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。AI模型语音识别微软MAI-Transcribe-1.5Azure AI Foundry多语言推荐理由:语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破,做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用,省去自建模型的麻烦。原文
15:55marktechpost@Asif Razzaq精选NVIDIA发布了Nemotron 3.5 ASR,一个600M参数的流式语音识别模型。该模型采用cache-aware架构,可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化,支持多种语言的实时语音转文字。AI模型Nemotron 3.5 ASRNVIDIA语音识别流式模型多语言10 个信源在谈推荐理由:600M模型转40语言实时原文
21:46Together AI@togethercomputeTogether AI 宣布在其平台上推出两款 NVIDIA Nemotron 模型:Nemotron 3 Ultra 专为高吞吐量的智能体工作负载设计,适合构建编码智能体和深度研究智能体;Nemotron 3.5 ASR 则专注于低延迟的多语言语音识别,适用于实时语音系统。这为 AI 原生开发者提供了在 AI Native Cloud 上构建复杂应用的新选择,降低了部署门槛。AI产品NVIDIA NemotronTogether AI智能体语音识别AI Native Cloud10 个信源在谈推荐理由:做智能体或语音应用的开发者现在有了更专业的模型选择——Nemotron 3 Ultra 适合高并发任务,Nemotron 3.5 ASR 能直接用于多语言实时语音场景,值得在 Together AI 上试试。原文
22:32Hugging Face: Blog(博客/媒体)NVIDIA 发布了 Nemotron 3.5 ASR 模型的微调指南,帮助开发者将通用语音识别模型适配到特定语言、专业领域或口音。该模型基于 Whisper 架构优化,支持低资源语言和噪声环境。指南提供了从数据准备、训练配置到部署的完整流程,并强调使用 LoRA 等高效微调方法降低计算成本。这对于需要高精度语音识别的垂直场景(如医疗、金融、客服)尤其有价值。AI模型语音识别ASRNemotron微调NVIDIA10 个信源在谈推荐理由:NVIDIA 把 ASR 微调的门槛降下来了,做语音应用的团队(尤其是非英语场景或专业领域)可以直接参考这套流程,省去大量试错成本。原文
10:25arXiv cs.AI@Máté Gedeon, Péter Mihajlik低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线:先由LLM生成带参与者元数据的场景级对话,再将说话人属性映射到TTS语音配置,最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上,仅用67小时真实对话加636小时合成数据训练的模型,性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言,且LLM生成器选择和合成数据组成对效果影响显著。论文语音识别数据增强低资源语言TTSLLM推荐理由:低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据,效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试,尤其适合匈牙利语等小语种场景。原文
10:01arXiv: OpenAI@Muhammad Ali精选巴尔蒂语(Balti)是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言,此前没有任何公开的自动语音识别(ASR)资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库,包含10060条经过验证的本地纳斯塔利克文字发音,数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调,在538条验证集上实现了30.07%的词错误率(WER),而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上,为低资源语言的语音技术发展提供了重要基础。论文语音识别低资源语言Whisper微调巴尔蒂语开源语料库3 个信源在谈推荐理由:这是首个为巴尔蒂语打造的ASR系统,解决了低资源语言语音识别的空白,做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。原文
08:25OpenRouter@OpenRouterAIOpenRouter 宣布上线微软三款新 AI 模型:MAI-Image-2.5(图像生成)、MAI-Transcribe-1.5(语音转文字)和 MAI-Voice-2(语音合成)。这些模型通过 OpenRouter 平台可直接调用,降低了开发者使用微软最新 AI 能力的门槛。此举意味着开发者无需单独申请 Azure 权限,即可在统一 API 下体验微软的多模态模型。对于需要图像生成、语音识别或语音合成的团队,这是一个便捷的新选择。AI产品微软OpenRouter图像生成语音识别语音合成5 个信源在谈推荐理由:微软的多模态模型终于能在 OpenRouter 上直接调用了,做图像生成、语音转文字或语音合成的开发者可以省去 Azure 申请流程,直接上手试。原文
10:46arXiv cs.AI@Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Katalin Mády精选匈牙利语对话自动语音识别(ASR)因公开对话式训练数据有限而受限。BEA-Dialogue 语料库虽填补了空白,但其严格的说话人分离划分导致可用数据仅85小时。本文提出扩展版 BEA-Dialogue+,放宽划分标准,保留主要说话人完全分离,将可用数据增至200小时。研究评估了 Whisper 和 FastConformer 模型,发现更大语料库对未微调模型更具挑战性,而基于序列化输出训练(SOT)的微调在词错误率、字符错误率等指标上持续提升。该语料库为匈牙利语对话 ASR 提供了更大且更具挑战性的基准。论文语音识别匈牙利语对话语料库ASRWhisper推荐理由:匈牙利语 ASR 研究者终于有了更大规模的对话数据集——BEA-Dialogue+ 将可用训练数据从85小时扩展到200小时,做低资源语言语音识别的团队可以直接用于模型评估和微调。原文
11:34arXiv cs.LG@Berk Hayta, Hannah Laus, Simon Mittermaier, Felix Krahmer精选证据深度学习(EDL)通过狄利克雷分布实现单次前向传播的不确定性估计,但其损失函数复杂,难以分析和实现。本文提出一种插件损失(plug-in loss),在狄利克雷均值处评估标准损失(如交叉熵),并证明在温和假设下近似误差随证据增长而衰减。该框架将标准 Softmax 分类器纳入不确定性估计,简化了实现。在 Google Speech Commands 数据集上,该方法在预测准确率和选择性预测性能上与经典 EDL 相当,且更易集成到现有训练流程。这是首次在语音识别任务中通过 EDL 获得覆盖-准确率权衡的实证分析。论文不确定性估计证据深度学习Softmax语音识别简化框架推荐理由:做不确定性估计的团队终于有了更简单的实现路径——用标准 Softmax 损失就能获得 EDL 效果,语音识别研究者可以直接替换现有训练流程试试。原文
06:11IT之家(博客/媒体)苹果在博文中预告iOS 27将新增“生成字幕”辅助功能,支持系统级实时为无字幕视频自动生成字幕。该功能依赖设备端语音识别,音频数据完全本地处理,不上传云端。首发版本仅支持英语,面向美国和加拿大用户,后续预计扩展语言和地区。除iPhone外,还覆盖iPad、Mac、Apple TV和Vision Pro,实现跨设备体验统一。AI产品iOS 27苹果自动字幕语音识别辅助功能推荐理由:苹果让视频自动加字幕了原文
17:35阿里云 Alibaba Cloud@alibaba_cloud阿里云在澳门举办AI赋能工作坊,展示了粤语语音识别、行政审批加速和智慧医疗等本地化解决方案。这些方案旨在解决澳门本地的具体问题,如提升公共服务效率。工作坊强调了AI在本地化场景中的实际价值,而非通用技术。阿里云通过ISV合作模式,推动AI在澳门各行业的落地应用。行业AI应用语音识别行政效率智慧医疗Alibaba Cloud推荐理由:该活动展示了AI在特定地域(澳门)的落地实践,对关注AI本地化和行业应用的企业有参考价值。原文