论文精选

BaltiVoice:为巴尔蒂语构建的语音语料库与微调Whisper ASR系统

BaltiVoice: A Speech Corpus and Fine-tuned Whisper ASR System for the Balti Language

精选理由

这是首个为巴尔蒂语打造的ASR系统,解决了低资源语言语音识别的空白,做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。

AI 摘要

巴尔蒂语(Balti)是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言,此前没有任何公开的自动语音识别(ASR)资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库,包含10060条经过验证的本地纳斯塔利克文字发音,数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调,在538条验证集上实现了30.07%的词错误率(WER),而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上,为低资源语言的语音技术发展提供了重要基础。

AI 翻译 · 中文

巴尔蒂语(Balti)是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言,此前没有任何公开的自动语音识别(ASR)资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库,包含10060条经过验证的本地纳斯塔利克文字发音,数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调,在538条验证集上实现了30.07%的词错误率(WER),而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上,为低资源语言的语音技术发展提供了重要基础。

arXiv: OpenAIWe present BaltiVoice, a 16.8-hour read-speech corpus for Balti (ISO 639-3: bft), a Tibetic language spoken in Gilgit-Baltistan, Pakistan, with no prior publicly available ASR resources. The corpus contains 10,060 valida