LLM作为调查替代品的品味偏差研究:系统正偏与结构缺失

Not-quite-human tastes: the stylized omnivorousness of LLM survey surrogates

精选理由

这篇论文揭示了用AI模拟人类文化品味时的三个致命缺陷:过度喜欢、关系缺失和社会偏差。做市场调研的人最好先读一读。

AI 摘要

该研究使用OpenAI、Anthropic和DeepSeek的LLM为每个模型生成277,470个(30×9249)硅样本,基于美国艺术参与调查(SPPA)数据。研究发现硅样本对喜好存在系统性正偏差,使生态估计值膨胀;样本间的关系结构完全丢失;年龄-品味关联被削弱,阶级-品味关联被复活,性别和种族-品味关联被夸大。

AI 翻译 · 中文

该研究使用OpenAI、Anthropic和DeepSeek的LLM为每个模型生成277,470个(30×9249)硅样本,基于美国艺术参与调查(SPPA)数据。研究发现硅样本对喜好存在系统性正偏差,使生态估计值膨胀;样本间的关系结构完全丢失;年龄-品味关联被削弱,阶级-品味关联被复活,性别和种族-品味关联被夸大。

arXiv: OpenAILarge-language models have proven to be remarkable if inconsistent parrots of public attitudes and opinions. The extent to which LLMs are able to produce reasonable approximations of cultural taste remains an open empiri