BLADE数据集：修复孟加拉语多语言模型敬语错误

精选理由

做低资源语言NLP或文化敏感对话系统的团队，这个数据集直接解决了敬语对齐的痛点，可以拿来微调自己的模型试试。

AI 摘要

多语言大模型在处理孟加拉语等低资源语言时，常因文化语境缺失导致敬语使用错误。研究者构建了BLADE数据集，包含4196个精心设计的对话对，用于指令微调。通过LoRA适配器对DeepSeek-8B和LLaMA-3.2-3B进行参数高效微调，模型在结构保真度和敬语对齐上显著提升。该工作为低资源多语言生成中的语用鸿沟提供了基准。代码和数据集已开源。

AI 翻译 · 中文

arXiv: DeepSeekRecent advances in Multilingual Large Language Models (MLLMs) have significantly enhanced cross-lingual conversational capabilities, yet modeling culturally nuanced and context-dependent communication remains a critical …

阅读原文