09:37arXiv cs.AI@Tianyu Dong, Yangyang Liu, Jiang Zhou, Xinwei Wu, Xiaohu Zhao, Hao Wang, Heng Liu, Linlong Xu, Longyue Wang, Weihua Luo, Shaolin Zhu, Deyi Xiong稀疏MoE(Mixture-of-Experts)模型在多语言场景下,低资源语言因数据稀缺导致路由与高资源语言不一致,限制跨语言知识共享。为此提出SARA(Semantically Anchored Routing Alignment)框架,利用对称JS散度对齐路由分布。在Qwen3-30B-A3B和Phi-3.5-MoE-instruct两个模型上,针对5种低资源语言和3个基准测试,SARA在Global-MMLU上分别提升0.8%和1.2%。该方法不依赖输出logits蒸馏,直接对齐内部路由机制,有效缓解低资源语言瓶颈。论文SARAMoEQwen3多语言模型开源模型推荐理由:论文提出SARA方法,用语义锚对齐MoE路由,让低资源语言也能用好专家能力,Global-MMLU提升0.8%-1.2%。原文
10:42arXiv: DeepSeek@Md. Asaduzzaman Shuvo, Mahedi Hasan, Md. Tashin Parvez, Azizul Haque Noman, Md. Shafayet Hossain Ovi精选多语言大模型在处理孟加拉语等低资源语言时,常因文化语境缺失导致敬语使用错误。研究者构建了BLADE数据集,包含4196个精心设计的对话对,用于指令微调。通过LoRA适配器对DeepSeek-8B和LLaMA-3.2-3B进行参数高效微调,模型在结构保真度和敬语对齐上显著提升。该工作为低资源多语言生成中的语用鸿沟提供了基准。代码和数据集已开源。论文多语言模型孟加拉语敬语对齐指令微调低资源语言推荐理由:做低资源语言NLP或文化敏感对话系统的团队,这个数据集直接解决了敬语对齐的痛点,可以拿来微调自己的模型试试。原文