11:38arXiv: OpenAI@Andrii Kryshtal精选72°一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现,发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时,输出可能加剧社会分裂。失败率从 6% 到 47% 不等,当用户要求“平衡”报道时,五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架,呼吁将此类测试纳入模型安全评估体系。论文AI安全冲突场景模型评估OpenAIAnthropicDeepSeekxAI10 个信源在谈推荐理由:做 AI 安全评估或部署在敏感地区的团队,这篇论文给出了第一个可复用的冲突场景测试框架,能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。原文