10:28arXiv cs.AI@Marek Šuppa, Andrej Ridzik, Daniel Hládek, Natália Kňažeková, Viktória Ondrejová研究团队发布了SkMTEB,这是斯洛伐克语首个全面的MTEB风格文本嵌入基准,包含31个数据集和7种任务类型,覆盖深度是现有多语言基准的近4倍。评估31个嵌入模型后发现,大型指令微调多语言模型表现最佳,而斯洛伐克语专用NLU模型在嵌入任务上迁移效果差。为满足高效本地部署需求,团队通过词汇修剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M)模型,体积最多减少62%,性能却与商业API相当。所有基准、模型、数据集和代码均已开源,为其他低资源语言提供了可复现的路径。论文文本嵌入低资源语言斯洛伐克语MTEB基准开源/仓库推荐理由:低资源语言NLP开发者终于有了可本地部署的高效嵌入方案——e5-sk系列在体积缩减62%后仍能匹敌商业API,做斯洛伐克语语义搜索或RAG的团队可以直接用开源模型替代付费服务。原文
10:25arXiv cs.AI@Máté Gedeon, Péter Mihajlik低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线:先由LLM生成带参与者元数据的场景级对话,再将说话人属性映射到TTS语音配置,最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上,仅用67小时真实对话加636小时合成数据训练的模型,性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言,且LLM生成器选择和合成数据组成对效果影响显著。论文语音识别数据增强低资源语言TTSLLM推荐理由:低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据,效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试,尤其适合匈牙利语等小语种场景。原文
10:01arXiv: OpenAI@Muhammad Ali精选巴尔蒂语(Balti)是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言,此前没有任何公开的自动语音识别(ASR)资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库,包含10060条经过验证的本地纳斯塔利克文字发音,数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调,在538条验证集上实现了30.07%的词错误率(WER),而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上,为低资源语言的语音技术发展提供了重要基础。论文语音识别低资源语言Whisper微调巴尔蒂语开源语料库3 个信源在谈推荐理由:这是首个为巴尔蒂语打造的ASR系统,解决了低资源语言语音识别的空白,做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。原文
10:42arXiv: DeepSeek@Md. Asaduzzaman Shuvo, Mahedi Hasan, Md. Tashin Parvez, Azizul Haque Noman, Md. Shafayet Hossain Ovi精选多语言大模型在处理孟加拉语等低资源语言时,常因文化语境缺失导致敬语使用错误。研究者构建了BLADE数据集,包含4196个精心设计的对话对,用于指令微调。通过LoRA适配器对DeepSeek-8B和LLaMA-3.2-3B进行参数高效微调,模型在结构保真度和敬语对齐上显著提升。该工作为低资源多语言生成中的语用鸿沟提供了基准。代码和数据集已开源。论文多语言模型孟加拉语敬语对齐指令微调低资源语言推荐理由:做低资源语言NLP或文化敏感对话系统的团队,这个数据集直接解决了敬语对齐的痛点,可以拿来微调自己的模型试试。原文
14:03arXiv: DeepSeek@Dylan Marx, Marcel Dunaiski精选72°研究发现,使用低资源非洲语言(如南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,可以绕过ChatGPT、Claude、DeepSeek、Gemini和Grok等商业大模型的安全护栏。单轮翻译攻击无效,但多轮对话在英语上达到52.7%-83.6%的有害响应率,非洲语言也达到41.8%-78.2%。人工红队测试比自动化方法越狱率更高,且翻译质量是决定越狱成功的关键因素——翻译质量越差,越狱率越低。论文越狱攻击低资源语言多轮对话安全漏洞LLM安全推荐理由:安全团队和LLM开发者需要警惕:多语言安全漏洞远未被堵住,低资源语言成为新的攻击面。建议立即检查自家模型的多轮对话安全机制。原文
13:27arXiv cs.AI@Ziheng Zhang, Yunzhong Hou, Naijing Liu, Liang Zheng精选WARDEN 是一个针对极度低资源场景设计的语言模型系统,能够将澳大利亚濒危原住民语言 Wardaman 转录并翻译成英语。由于仅有6小时标注音频数据,传统的大规模端到端方法不可行,因此 WARDEN 采用两阶段架构:先进行音素转录,再翻译成英文。研究提出了两项关键技术:从与 Wardaman 音素相似的 Sundanese 语初始化转录模型,以及利用专家标注的 Wardaman-英语词典增强大语言模型的翻译推理。实验表明,在极低数据条件下,两阶段设计优于统一模型,WARDEN 仅用6小时数据即超越更大规模的开源和商业模型。代码与数据已开源。论文低资源语言语音转录翻译WARDEN濒危语言推荐理由:低资源语言处理是 NLP 的硬骨头,WARDEN 用两阶段设计+跨语言迁移+词典增强给出了可行方案,做低资源 ASR/NMT 的研究者可以直接参考其技术路线。原文
13:27arXiv: DeepSeek@Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan精选DocAtlas 是一个多语言文档理解框架,覆盖 82 种语言和 9 项评估任务,解决了低资源语言因训练数据稀缺和标注偏差导致的性能瓶颈。它通过差分渲染原生 DOCX 文档和基于 LaTeX 的合成生成(针对从右到左书写系统)来构建高保真 OCR 数据集,无需学习模型即可生成统一 DocTag 格式的结构化标注。评估 16 个 SOTA 模型发现低资源语言仍存在显著差距。使用直接偏好优化(DPO)以渲染生成的真实数据作为正信号,实现了稳定的多语言适配,在域内和域外准确率分别提升 1.9% 和 1.8%,而监督微调导致域外性能下降高达 21%。最佳变体 DocAtlas-DeepSeek 比最强基线提升 1.7%。论文多语言文档理解OCR低资源语言DPO/直接偏好优化DocAtlas推荐理由:做多语言文档理解或 OCR 的团队终于有了一个覆盖 82 种语言的高质量基准和训练框架,低资源语言场景可以直接用 DPO 方法提升效果,建议点开看具体实现。原文