本体记忆增强ASR纠错框架:长文本语音交错对话

Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

精选理由

做语音识别或对话系统的团队,这个框架解决了长对话中ASR纠错缺乏上下文的问题,直接提升纠错准确率,值得在长交互场景中尝试。

AI 摘要

传统ASR纠错仅关注孤立语句或短上下文,但在长文本与语音交错的对话中,需要对话级上下文证据。现有方法依赖当前假设或拼接原始对话历史,难以在冗余噪声中定位稀疏纠错证据。本文提出本体记忆增强的ASR纠错框架,将交互历史组织为动态更新的本体记忆,存储实体、术语、表面变体、潜在ASR混淆及语义关系作为可检索节点。基于MAGIC-RAMC构建的RAMC-Corr数据集实验显示,该方法在10个配对骨干设置组合中9个优于直接纠错,促进更选择性、基于证据的上下文相关ASR错误纠正。

AI 翻译 · 中文

传统ASR纠错仅关注孤立语句或短上下文,但在长文本与语音交错的对话中,需要对话级上下文证据。现有方法依赖当前假设或拼接原始对话历史,难以在冗余噪声中定位稀疏纠错证据。本文提出本体记忆增强的ASR纠错框架,将交互历史组织为动态更新的本体记忆,存储实体、术语、表面变体、潜在ASR混淆及语义关系作为可检索节点。基于MAGIC-RAMC构建的RAMC-Corr数据集实验显示,该方法在10个配对骨干设置组合中9个优于直接纠错,促进更选择性、基于证据的上下文相关ASR错误纠正。

arXiv cs.AIAutomatic speech recognition (ASR) correction has traditionally focused on isolated utterances or short local contexts. However, as text and speech become increasingly interleaved in long interactions, ASR correction req