11:37arXiv cs.AI@Nikolos Gurney该论文构建了一个结构因果模型(DAG),将心智理论视为由情境与主体条件激活的机制,而非始终开启的能力。模型包含四个外生变量(如冲突强度、信息可及性)和五个内生中介变量,通过可处理性路径、推理深度路径和使能原因路径三种机制决定心智理论的参与状态。主要输出变量是认知准确性,该框架为AI系统提供了资源理性的心智化决策流程。论文还通过仿真验证和人类-智能体团队实验评估了模型的有效性,并讨论了冲突优化心智化引发的伦理问题。论文心智理论因果模型冲突场景AI安全推荐理由:这篇论文给AI装了个'读心开关'——只在冲突场景下按需启动心智推理,既省算力又提升准确性,值得做AI安全和多智能体的人看看。原文
11:38arXiv: OpenAI@Andrii Kryshtal精选72°一项新研究测试了 OpenAI、Anthropic、DeepSeek、xAI 的九款模型在 90 个多轮冲突场景中的表现,发现模型在涉及战争罪行、种族灭绝否认、种族歧视等敏感话题时,输出可能加剧社会分裂。失败率从 6% 到 47% 不等,当用户要求“平衡”报道时,五款模型在 80%-100% 的情况下失败。研究首次提出针对冲突场景的评估框架,呼吁将此类测试纳入模型安全评估体系。论文AI安全冲突场景模型评估OpenAIAnthropicDeepSeekxAI10 个信源在谈推荐理由:做 AI 安全评估或部署在敏感地区的团队,这篇论文给出了第一个可复用的冲突场景测试框架,能直接用来检查模型是否会在关键议题上“和稀泥”——看完你会重新审视“中立”输出的代价。原文