AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:ASR×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
04:32
04:32Hugging Face: Blog(博客/媒体)
ServiceNow AI 发布了一项针对前沿自动语音识别(ASR)模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言,这在多语言用户中很常见。测试发现,当前最先进的ASR模型在处理这种混合语言时表现不佳,错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战,并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。
论文语音代理ASR代码切换多语言基准测试

推荐理由:做语音助手或客服系统的团队会发现,当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言,这个基准测试直接暴露了痛点,建议点开看看你的模型能否过关。
原文
6月4日
22:32
22:32Hugging Face: Blog(博客/媒体)
NVIDIA 发布了 Nemotron 3.5 ASR 模型的微调指南,帮助开发者将通用语音识别模型适配到特定语言、专业领域或口音。该模型基于 Whisper 架构优化,支持低资源语言和噪声环境。指南提供了从数据准备、训练配置到部署的完整流程,并强调使用 LoRA 等高效微调方法降低计算成本。这对于需要高精度语音识别的垂直场景(如医疗、金融、客服)尤其有价值。
AI模型语音识别ASRNemotron微调NVIDIA

推荐理由:NVIDIA 把 ASR 微调的门槛降下来了,做语音应用的团队(尤其是非英语场景或专业领域)可以直接参考这套流程,省去大量试错成本。
原文
精选全部日报登录