01:01Vercel AI@vercelVercel 宣布其 AI Gateway 新增实时语音和转录能力,开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建,支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施,即可快速为应用加入语音代理功能。AI产品VercelAI Gatewayvoice agents语音识别实时交互推荐理由:Vercel 把语音代理直接做到 AI Gateway 里了,用 useRealtime 就能接入实时对话,省掉搭服务器。原文
17:55Yangyi@Yangyixxxx用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。AI模型FunASRASR语音识别LLM开源模型推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。原文
13:51Together AI@togethercomputeTogether AI 构建了基于 Parakeet 的语音转文本堆栈,每秒可处理约 302 秒音频,这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行,通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。AI模型ParakeetTogether AI语音识别推理优化速度基准推荐理由:Together AI 把 Parakeet 优化到每秒转写 302 秒音频,比别的服务快一大截,想搞语音识别的可以看看这篇系统调优拆解。原文
02:02Jerry Liu@jerryjliu0Karan Goel 团队发布 Sonic-3.5(文本转语音)和 Ink-2(语音转文本)两种流式模型。新架构实现了速度和质量的突破,将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。AI模型Sonic-3.5Ink-2语音识别语音合成流式模型推荐理由:Karan Goel 发了两个新模型,Sonic-3.5 做 TTS 排名第一,Ink-2 做 STT 也是第一,说是唯一一家听说都做到顶的。做语音智能体的话看看。原文
13:08Guillaume Lample (Mistral)@GuillaumeLampleMistral 发布了 Voxtral 2,包含两个新模型:Voxtral Realtime(实时转录,延迟可低于 200 毫秒,Apache 2 许可)和 Voxtral Mini Transcribe 2(支持说话人分离、词级时间戳和上下文偏置)。该模型支持 13 种语言,通过 Mistral API 提供,是市场上性价比最高的转录 API 之一。AI模型MistralVoxtral 2语音识别实时转录开源/仓库推荐理由:做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。原文
21:46Together AI@togethercomputeTogether AI 宣布在其平台上推出两款 NVIDIA Nemotron 模型:Nemotron 3 Ultra 专为高吞吐量的智能体工作负载设计,适合构建编码智能体和深度研究智能体;Nemotron 3.5 ASR 则专注于低延迟的多语言语音识别,适用于实时语音系统。这为 AI 原生开发者提供了在 AI Native Cloud 上构建复杂应用的新选择,降低了部署门槛。AI产品NVIDIA NemotronTogether AI智能体语音识别AI Native Cloud10 个信源在谈推荐理由:做智能体或语音应用的开发者现在有了更专业的模型选择——Nemotron 3 Ultra 适合高并发任务,Nemotron 3.5 ASR 能直接用于多语言实时语音场景,值得在 Together AI 上试试。原文
08:25OpenRouter@OpenRouterAIOpenRouter 宣布上线微软三款新 AI 模型:MAI-Image-2.5(图像生成)、MAI-Transcribe-1.5(语音转文字)和 MAI-Voice-2(语音合成)。这些模型通过 OpenRouter 平台可直接调用,降低了开发者使用微软最新 AI 能力的门槛。此举意味着开发者无需单独申请 Azure 权限,即可在统一 API 下体验微软的多模态模型。对于需要图像生成、语音识别或语音合成的团队,这是一个便捷的新选择。AI产品微软OpenRouter图像生成语音识别语音合成5 个信源在谈推荐理由:微软的多模态模型终于能在 OpenRouter 上直接调用了,做图像生成、语音转文字或语音合成的开发者可以省去 Azure 申请流程,直接上手试。原文
17:35阿里云 Alibaba Cloud@alibaba_cloud阿里云在澳门举办AI赋能工作坊,展示了粤语语音识别、行政审批加速和智慧医疗等本地化解决方案。这些方案旨在解决澳门本地的具体问题,如提升公共服务效率。工作坊强调了AI在本地化场景中的实际价值,而非通用技术。阿里云通过ISV合作模式,推动AI在澳门各行业的落地应用。行业AI应用语音识别行政效率智慧医疗Alibaba Cloud推荐理由:该活动展示了AI在特定地域(澳门)的落地实践,对关注AI本地化和行业应用的企业有参考价值。原文