AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:语音识别×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月8日
17:03
17:03marktechpost@Asif Razzaq
精选
微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5,这是该系列的第二代。该模型支持 43 种语言,在 Artificial Analysis 排行榜上词错误率低至 2.4%,在 FLEURS 基准测试中达到最佳精度。它引入了关键词(实体)偏置功能,可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍,1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。
AI模型语音识别微软MAI-Transcribe-1.5Azure AI Foundry多语言

推荐理由:语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破,做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用,省去自建模型的麻烦。
原文
6月6日
15:55
15:55marktechpost@Asif Razzaq
精选
NVIDIA发布了Nemotron 3.5 ASR,一个600M参数的流式语音识别模型。该模型采用cache-aware架构,可从单个检查点实时转录40种语言-区域。它针对低延迟场景优化,支持多种语言的实时语音转文字。
AI模型Nemotron 3.5 ASRNVIDIA语音识别流式模型多语言

推荐理由:600M模型转40语言实时
原文
6月4日
22:32
22:32Hugging Face: Blog(博客/媒体)
NVIDIA 发布了 Nemotron 3.5 ASR 模型的微调指南,帮助开发者将通用语音识别模型适配到特定语言、专业领域或口音。该模型基于 Whisper 架构优化,支持低资源语言和噪声环境。指南提供了从数据准备、训练配置到部署的完整流程,并强调使用 LoRA 等高效微调方法降低计算成本。这对于需要高精度语音识别的垂直场景(如医疗、金融、客服)尤其有价值。
AI模型语音识别ASRNemotron微调NVIDIA

推荐理由:NVIDIA 把 ASR 微调的门槛降下来了,做语音应用的团队(尤其是非英语场景或专业领域)可以直接参考这套流程,省去大量试错成本。
原文
5月20日
06:11
06:11IT之家(博客/媒体)
苹果在博文中预告iOS 27将新增“生成字幕”辅助功能,支持系统级实时为无字幕视频自动生成字幕。该功能依赖设备端语音识别,音频数据完全本地处理,不上传云端。首发版本仅支持英语,面向美国和加拿大用户,后续预计扩展语言和地区。除iPhone外,还覆盖iPad、Mac、Apple TV和Vision Pro,实现跨设备体验统一。
AI产品iOS 27苹果自动字幕语音识别辅助功能

推荐理由:苹果让视频自动加字幕了
原文
精选全部日报登录