精选理由
这篇论文揭示了多语言AI评估中的一个关键误区——本地语言表现差可能不是知识缺失,而是语言能力瓶颈。做跨文化NLP或本地化模型的团队,看完会重新理解评测指标。
这篇论文研究了大型语言模型在回答文化相关问题时,使用英语还是本地语言更能获取文化知识。现有评估存在两个局限:模板化问题不自然,且准确率混淆了语言能力和知识访问。作者构建了控制框架,使用真实文化问题,通过项目反应理论模型分离语言能力和知识访问。在13个地区、约80个模型上发现,英语在文化无关问题上表现更好,但控制语言能力后,本地语言在文化知识访问上普遍有优势。这种优势在原始准确率中被掩盖,但在前沿、区域对齐或语言适配模型中更明显。结论是,本地语言表现弱不意味着文化知识弱,而是语言能力限制了访问。
AI 翻译 · 中文
这篇论文研究了大型语言模型在回答文化相关问题时,使用英语还是本地语言更能获取文化知识。现有评估存在两个局限:模板化问题不自然,且准确率混淆了语言能力和知识访问。作者构建了控制框架,使用真实文化问题,通过项目反应理论模型分离语言能力和知识访问。在13个地区、约80个模型上发现,英语在文化无关问题上表现更好,但控制语言能力后,本地语言在文化知识访问上普遍有优势。这种优势在原始准确率中被掩盖,但在前沿、区域对齐或语言适配模型中更明显。结论是,本地语言表现弱不意味着文化知识弱,而是语言能力限制了访问。
Large language models are increasingly used to answer culturally grounded questions across languages, yet it remains unclear whether local cultural knowledge is better accessed through English or the local language. Exis…