AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:语音识别×
6月30日
01:01
01:01Vercel AI@vercel
Vercel 宣布其 AI Gateway 新增实时语音和转录能力,开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建,支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施,即可快速为应用加入语音代理功能。
AI产品VercelAI Gatewayvoice agents语音识别实时交互

推荐理由:Vercel 把语音代理直接做到 AI Gateway 里了,用 useRealtime 就能接入实时对话,省掉搭服务器。
原文
6月29日
17:55
17:55Yangyi@Yangyixxxx
用户认为FunASR模型在大部分场景下可用,精度偶尔不足。建议套用LLM进行修复,可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。
AI模型FunASRASR语音识别LLM开源模型

推荐理由:有实测用户说FunASR比Whisper更值,精度不够时加个LLM就能补上,做中文语音识别可以试试。
原文
13:51
13:51Together AI@togethercompute
Together AI 构建了基于 Parakeet 的语音转文本堆栈,每秒可处理约 302 秒音频,这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行,通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。
AI模型ParakeetTogether AI语音识别推理优化速度基准

推荐理由:Together AI 把 Parakeet 优化到每秒转写 302 秒音频,比别的服务快一大截,想搞语音识别的可以看看这篇系统调优拆解。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
02:02
02:02Jerry Liu@jerryjliu0
Karan Goel 团队发布 Sonic-3.5(文本转语音)和 Ink-2(语音转文本)两种流式模型。新架构实现了速度和质量的突破,将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。
AI模型Sonic-3.5Ink-2语音识别语音合成流式模型

推荐理由:Karan Goel 发了两个新模型,Sonic-3.5 做 TTS 排名第一,Ink-2 做 STT 也是第一,说是唯一一家听说都做到顶的。做语音智能体的话看看。
原文
6月12日
13:08
13:08Guillaume Lample (Mistral)@GuillaumeLample
Mistral 发布了 Voxtral 2,包含两个新模型:Voxtral Realtime(实时转录,延迟可低于 200 毫秒,Apache 2 许可)和 Voxtral Mini Transcribe 2(支持说话人分离、词级时间戳和上下文偏置)。该模型支持 13 种语言,通过 Mistral API 提供,是市场上性价比最高的转录 API 之一。
AI模型MistralVoxtral 2语音识别实时转录开源/仓库

推荐理由:做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。
原文
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月5日
21:46
21:46Together AI@togethercompute
Together AI 宣布在其平台上推出两款 NVIDIA Nemotron 模型:Nemotron 3 Ultra 专为高吞吐量的智能体工作负载设计,适合构建编码智能体和深度研究智能体;Nemotron 3.5 ASR 则专注于低延迟的多语言语音识别,适用于实时语音系统。这为 AI 原生开发者提供了在 AI Native Cloud 上构建复杂应用的新选择,降低了部署门槛。
AI产品NVIDIA NemotronTogether AI智能体语音识别AI Native Cloud

推荐理由:做智能体或语音应用的开发者现在有了更专业的模型选择——Nemotron 3 Ultra 适合高并发任务,Nemotron 3.5 ASR 能直接用于多语言实时语音场景,值得在 Together AI 上试试。
原文
6月3日
08:25
08:25OpenRouter@OpenRouterAI
OpenRouter 宣布上线微软三款新 AI 模型:MAI-Image-2.5(图像生成)、MAI-Transcribe-1.5(语音转文字)和 MAI-Voice-2(语音合成)。这些模型通过 OpenRouter 平台可直接调用,降低了开发者使用微软最新 AI 能力的门槛。此举意味着开发者无需单独申请 Azure 权限,即可在统一 API 下体验微软的多模态模型。对于需要图像生成、语音识别或语音合成的团队,这是一个便捷的新选择。
AI产品微软OpenRouter图像生成语音识别语音合成

推荐理由:微软的多模态模型终于能在 OpenRouter 上直接调用了,做图像生成、语音转文字或语音合成的开发者可以省去 Azure 申请流程,直接上手试。
原文
5月12日
17:35
17:35阿里云 Alibaba Cloud@alibaba_cloud
阿里云在澳门举办AI赋能工作坊,展示了粤语语音识别、行政审批加速和智慧医疗等本地化解决方案。这些方案旨在解决澳门本地的具体问题,如提升公共服务效率。工作坊强调了AI在本地化场景中的实际价值,而非通用技术。阿里云通过ISV合作模式,推动AI在澳门各行业的落地应用。
行业AI应用语音识别行政效率智慧医疗Alibaba Cloud

推荐理由:该活动展示了AI在特定地域(澳门)的落地实践,对关注AI本地化和行业应用的企业有参考价值。
原文
精选全部日报登录