论文精选

WARDEN:仅用6小时训练数据实现濒危原住民语言转录与翻译

WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data

精选理由

低资源语言处理是 NLP 的硬骨头,WARDEN 用两阶段设计+跨语言迁移+词典增强给出了可行方案,做低资源 ASR/NMT 的研究者可以直接参考其技术路线。

AI 摘要

WARDEN 是一个针对极度低资源场景设计的语言模型系统,能够将澳大利亚濒危原住民语言 Wardaman 转录并翻译成英语。由于仅有6小时标注音频数据,传统的大规模端到端方法不可行,因此 WARDEN 采用两阶段架构:先进行音素转录,再翻译成英文。研究提出了两项关键技术:从与 Wardaman 音素相似的 Sundanese 语初始化转录模型,以及利用专家标注的 Wardaman-英语词典增强大语言模型的翻译推理。实验表明,在极低数据条件下,两阶段设计优于统一模型,WARDEN 仅用6小时数据即超越更大规模的开源和商业模型。代码与数据已开源。

AI 翻译 · 中文

WARDEN 是一个针对极度低资源场景设计的语言模型系统,能够将澳大利亚濒危原住民语言 Wardaman 转录并翻译成英语。由于仅有6小时标注音频数据,传统的大规模端到端方法不可行,因此 WARDEN 采用两阶段架构:先进行音素转录,再翻译成英文。研究提出了两项关键技术:从与 Wardaman 音素相似的 Sundanese 语初始化转录模型,以及利用专家标注的 Wardaman-英语词典增强大语言模型的翻译推理。实验表明,在极低数据条件下,两阶段设计优于统一模型,WARDEN 仅用6小时数据即超越更大规模的开源和商业模型。代码与数据已开源。

arXiv cs.AIThis paper introduces WARDEN, an early language model system capable of transcribing and translating Wardaman, an endangered Australian indigenous language into English. The significant challenge we face is the lack of l