全部 AI 动态 · AI 热点

6月30日

01:01

Vercel AI@vercel

Vercel 宣布其 AI Gateway 新增实时语音和转录能力，开发者可使用 useRealtime、generateSpeech 和 transcribe 三个工具。该功能基于 AI SDK 7 构建，支持实时语音交互、语音合成和语音识别。无需从零搭建基础设施，即可快速为应用加入语音代理功能。

AI产品 Vercel AI Gateway voice agents 语音识别实时交互

推荐理由：Vercel 把语音代理直接做到 AI Gateway 里了，用 useRealtime 就能接入实时对话，省掉搭服务器。

原文

6月29日

17:55

Yangyi@Yangyixxxx

用户认为FunASR模型在大部分场景下可用，精度偶尔不足。建议套用LLM进行修复，可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。

AI模型 FunASR ASR 语音识别 LLM 开源模型

推荐理由：有实测用户说FunASR比Whisper更值，精度不够时加个LLM就能补上，做中文语音识别可以试试。

原文

13:51

Together AI@togethercompute

Together AI 构建了基于 Parakeet 的语音转文本堆栈，每秒可处理约 302 秒音频，这是 Artificial Analysis 报告中最高速度因子。该堆栈在 Together 平台上运行，通过系统级优化实现低延迟转录。文章由 @FeelTheBeurn 详细拆解了背后的工程工作。

AI模型 Parakeet Together AI 语音识别推理优化速度基准

推荐理由：Together AI 把 Parakeet 优化到每秒转写 302 秒音频，比别的服务快一大截，想搞语音识别的可以看看这篇系统调优拆解。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

02:02

Jerry Liu@jerryjliu0

Karan Goel 团队发布 Sonic-3.5（文本转语音）和 Ink-2（语音转文本）两种流式模型。新架构实现了速度和质量的突破，将两者推向各自类别的榜首。该团队自称是目前唯一同时拥有排名第一的语音输入和输出模型的提供商。

AI模型 Sonic-3.5 Ink-2 语音识别语音合成流式模型

推荐理由：Karan Goel 发了两个新模型，Sonic-3.5 做 TTS 排名第一，Ink-2 做 STT 也是第一，说是唯一一家听说都做到顶的。做语音智能体的话看看。

原文

6月12日

13:55

arXiv cs.AI@Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong Baotian Hu, Min Zhang

传统ASR纠错仅关注孤立语句或短上下文，但在长文本与语音交错的对话中，需要对话级上下文证据。现有方法依赖当前假设或拼接原始对话历史，难以在冗余噪声中定位稀疏纠错证据。本文提出本体记忆增强的ASR纠错框架，将交互历史组织为动态更新的本体记忆，存储实体、术语、表面变体、潜在ASR混淆及语义关系作为可检索节点。基于MAGIC-RAMC构建的RAMC-Corr数据集实验显示，该方法在10个配对骨干设置组合中9个优于直接纠错，促进更选择性、基于证据的上下文相关ASR错误纠正。

论文 ASR纠错本体记忆长对话上下文增强语音识别

推荐理由：做语音识别或对话系统的团队，这个框架解决了长对话中ASR纠错缺乏上下文的问题，直接提升纠错准确率，值得在长交互场景中尝试。

原文

13:08

Guillaume Lample (Mistral)@GuillaumeLample

Mistral 发布了 Voxtral 2，包含两个新模型：Voxtral Realtime（实时转录，延迟可低于 200 毫秒，Apache 2 许可）和 Voxtral Mini Transcribe 2（支持说话人分离、词级时间戳和上下文偏置）。该模型支持 13 种语言，通过 Mistral API 提供，是市场上性价比最高的转录 API 之一。

AI模型 Mistral Voxtral 2 语音识别实时转录开源/仓库

推荐理由：做语音转录或实时字幕的开发者终于有了一个开源且低延迟的选择——Voxtral Realtime 的 Apache 2 许可和 sub-200ms 延迟值得一试。

原文