全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:55

13:55

arXiv cs.AI@Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong Baotian Hu, Min Zhang

传统ASR纠错仅关注孤立语句或短上下文，但在长文本与语音交错的对话中，需要对话级上下文证据。现有方法依赖当前假设或拼接原始对话历史，难以在冗余噪声中定位稀疏纠错证据。本文提出本体记忆增强的ASR纠错框架，将交互历史组织为动态更新的本体记忆，存储实体、术语、表面变体、潜在ASR混淆及语义关系作为可检索节点。基于MAGIC-RAMC构建的RAMC-Corr数据集实验显示，该方法在10个配对骨干设置组合中9个优于直接纠错，促进更选择性、基于证据的上下文相关ASR错误纠正。

论文 ASR纠错本体记忆长对话上下文增强语音识别

推荐理由：做语音识别或对话系统的团队，这个框架解决了长对话中ASR纠错缺乏上下文的问题，直接提升纠错准确率，值得在长交互场景中尝试。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:25

10:25

arXiv cs.AI@Máté Gedeon, Péter Mihajlik

低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线：先由LLM生成带参与者元数据的场景级对话，再将说话人属性映射到TTS语音配置，最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上，仅用67小时真实对话加636小时合成数据训练的模型，性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言，且LLM生成器选择和合成数据组成对效果影响显著。

论文语音识别数据增强低资源语言 TTS LLM

推荐理由：低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据，效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试，尤其适合匈牙利语等小语种场景。

10:01

10:01

arXiv: OpenAI@Muhammad Ali

精选

巴尔蒂语（Balti）是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言，此前没有任何公开的自动语音识别（ASR）资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库，包含10060条经过验证的本地纳斯塔利克文字发音，数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调，在538条验证集上实现了30.07%的词错误率（WER），而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上，为低资源语言的语音技术发展提供了重要基础。

论文语音识别低资源语言 Whisper微调巴尔蒂语开源语料库

推荐理由：这是首个为巴尔蒂语打造的ASR系统，解决了低资源语言语音识别的空白，做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。

6月1日

10:46

10:46

arXiv cs.AI@Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Katalin Mády

精选

匈牙利语对话自动语音识别（ASR）因公开对话式训练数据有限而受限。BEA-Dialogue 语料库虽填补了空白，但其严格的说话人分离划分导致可用数据仅85小时。本文提出扩展版 BEA-Dialogue+，放宽划分标准，保留主要说话人完全分离，将可用数据增至200小时。研究评估了 Whisper 和 FastConformer 模型，发现更大语料库对未微调模型更具挑战性，而基于序列化输出训练（SOT）的微调在词错误率、字符错误率等指标上持续提升。该语料库为匈牙利语对话 ASR 提供了更大且更具挑战性的基准。

论文语音识别匈牙利语对话语料库 ASR Whisper

推荐理由：匈牙利语 ASR 研究者终于有了更大规模的对话数据集——BEA-Dialogue+ 将可用训练数据从85小时扩展到200小时，做低资源语言语音识别的团队可以直接用于模型评估和微调。

5月22日

11:34

11:34

arXiv cs.LG@Berk Hayta, Hannah Laus, Simon Mittermaier, Felix Krahmer

精选

证据深度学习（EDL）通过狄利克雷分布实现单次前向传播的不确定性估计，但其损失函数复杂，难以分析和实现。本文提出一种插件损失（plug-in loss），在狄利克雷均值处评估标准损失（如交叉熵），并证明在温和假设下近似误差随证据增长而衰减。该框架将标准 Softmax 分类器纳入不确定性估计，简化了实现。在 Google Speech Commands 数据集上，该方法在预测准确率和选择性预测性能上与经典 EDL 相当，且更易集成到现有训练流程。这是首次在语音识别任务中通过 EDL 获得覆盖-准确率权衡的实证分析。

论文不确定性估计证据深度学习 Softmax 语音识别简化框架

推荐理由：做不确定性估计的团队终于有了更简单的实现路径——用标准 Softmax 损失就能获得 EDL 效果，语音识别研究者可以直接替换现有训练流程试试。