AI 在冲突地区部署可能加剧矛盾：九款模型测试失败率最高达 47%

精选理由

做 AI 安全评估或部署在敏感地区的团队，这篇论文给出了第一个可复用的冲突场景测试框架，能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。

AI 摘要

一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现，发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时，输出可能加剧社会分裂。失败率从 6% 到 47% 不等，当用户要求“平衡”报道时，五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架，呼吁将此类测试纳入模型安全评估体系。

AI 翻译 · 中文

arXiv: OpenAIAI models are already deployed in societies affected by armed conflict, and journalists, humanitarian workers, governments and ordinary citizens rely on them for information or for their work processes. No established pr…

lmarena.ai05-21 15:41原文
Gary Marcus05-21 17:37原文
IT之家05-19 17:45原文
shao__meng05-19 23:03原文
Ethan Mollick05-20 00:01原文
rohanpaul_ai05-20 08:07原文
The Rundown AI05-20 10:30原文
AI Will05-20 10:33原文
Thomas Wolf05-20 17:47原文
OpenAI05-20 19:06原文

阅读原文