PCT：用一致性训练减少LLM的隐蔽政治偏见

精选理由

这项研究戳中了LLM在敏感话题上的隐藏偏见问题，做AI安全、内容审核或政治相关应用的团队值得关注，可以直接用PCT方法减少模型被操纵的风险。

AI 摘要

研究发现大语言模型在处理对立政治话题时存在不对称性，表现为隐蔽政治偏见，包括7类操纵技术。作者提出两个新指标：情感一致性和帮助一致性，分别衡量修辞框架和交互深度的对称性。为减少这种偏见，他们提出政治一致性训练（PCT），包含情感一致性和帮助一致性两种互补的强化学习范式。实验表明PCT在保持模型整体帮助性的同时，显著降低了隐蔽政治偏见，并能泛化到未见的基准测试。相关代码和数据已开源。

AI 翻译 · 中文

arXiv cs.AILarge language models (LLMs) exhibit systematic political bias across a variety of sensitive contexts. We find that LLMs handle counterpart topics from opposing political sides asymmetrically. We refer to this phenomenon…

阅读原文