09:26arXiv cs.AI@Yang Zhang, Xiao Fei, Amr Mohamed, Sarah Almeida Carneiro, Mersin Konomi, Mingmeng Geng, Ahmed Asaad, Guokan Shang, Michalis Vazirgiannis这篇论文研究了大型语言模型在回答文化相关问题时,使用英语还是本地语言更能获取文化知识。现有评估存在两个局限:模板化问题不自然,且准确率混淆了语言能力和知识访问。作者构建了控制框架,使用真实文化问题,通过项目反应理论模型分离语言能力和知识访问。在13个地区、约80个模型上发现,英语在文化无关问题上表现更好,但控制语言能力后,本地语言在文化知识访问上普遍有优势。这种优势在原始准确率中被掩盖,但在前沿、区域对齐或语言适配模型中更明显。结论是,本地语言表现弱不意味着文化知识弱,而是语言能力限制了访问。论文大语言模型多语言文化知识评估框架项目反应理论推荐理由:这篇论文揭示了多语言AI评估中的一个关键误区——本地语言表现差可能不是知识缺失,而是语言能力瓶颈。做跨文化NLP或本地化模型的团队,看完会重新理解评测指标。原文