训练无关的文化对齐:DISCA利用人格分歧实现

精选理由

该工作首次在推理阶段解决多国文化对齐问题,面向API黑盒场景,且仅依赖公开调查数据,对AI产品的全球化部署具有实用参考价值。

AI 摘要

研究发现大语言模型在道德判断上并非文化中立。现有方法需特定国家偏好数据或模型白盒访问。本文提出DISCA方法,利用世界价值观调查数据构建国家化人格智能体面板,在推理时将内部观点分歧转化为无偏、损失规避的logit校正来引导模型输出。在20个国家和7个开源模型上,DISCA减少了10-24%的文化对齐错误,提升了推理时文化校准的可扩展性。该方法无需微调、公开数据可用,为服务全球多元道德偏好的长期需求提供了可行方案。

AI 翻译 · 中文

研究发现大语言模型在道德判断上并非文化中立。现有方法需特定国家偏好数据或模型白盒访问。本文提出DISCA方法,利用世界价值观调查数据构建国家化人格智能体面板,在推理时将内部观点分歧转化为无偏、损失规避的logit校正来引导模型输出。在20个国家和7个开源模型上,DISCA减少了10-24%的文化对齐错误,提升了推理时文化校准的可扩展性。该方法无需微调、公开数据可用,为服务全球多元道德偏好的长期需求提供了可行方案。