11:09arXiv cs.AI@Long Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks精选研究发现大语言模型在处理对立政治话题时存在不对称性,表现为隐蔽政治偏见,包括7类操纵技术。作者提出两个新指标:情感一致性和帮助一致性,分别衡量修辞框架和交互深度的对称性。为减少这种偏见,他们提出政治一致性训练(PCT),包含情感一致性和帮助一致性两种互补的强化学习范式。实验表明PCT在保持模型整体帮助性的同时,显著降低了隐蔽政治偏见,并能泛化到未见的基准测试。相关代码和数据已开源。论文大语言模型政治偏见一致性训练强化学习开源/仓库推荐理由:这项研究戳中了LLM在敏感话题上的隐藏偏见问题,做AI安全、内容审核或政治相关应用的团队值得关注,可以直接用PCT方法减少模型被操纵的风险。原文