LLM 地缘政治偏见源于后训练，而非预训练数据

精选理由

这项研究戳破了“数据决定一切”的迷思，做AI安全、模型对齐或地缘政治分析的团队值得细读——它直接影响了如何评估和调整模型的政治倾向。

AI 摘要

一项新研究挑战了普遍假设，发现大语言模型的地缘政治偏见主要来自后训练阶段（如指令微调），而非预训练数据。研究测试了七个开源模型对（基础版和聊天版）在28对国家上的偏好，结果显示六家实验室的模型在后训练后表现出与开发者所在国或地区一致的偏见。例如，阿里Qwen 2.5聊天版对中国偏好从基础版的-0.15跃升至+2.91（对数几率），变化达18倍。偏见强度还受提示语言影响：法国Mistral模型仅在法语提示下才显著亲法。该发现强调了对模型对齐过程进行透明审计和监督的必要性。

AI 翻译 · 中文

arXiv cs.AIIt has generally been assumed that geopolitical bias in language models originates from the training data used during the pre-training phase. We tested seven open-weight LLM pairs consisting of the base model (pre-traini…

阅读原文