10:37arXiv: DeepSeek@Zewen Liu论文提出Contagion Networks框架,测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中,设定三种评估偏差画像(结构化、平衡、基于证据),测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍(MM-EPC约0.85-1.3),处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。论文DeepSeek-chatContagion Networks多智能体评估偏差传播抑制推荐理由:想知道大模型评估偏差怎么在智能体间传播?这篇论文用DeepSeek-chat做了实验,告诉你委员会投票能降72%传播,实用。原文
10:48arXiv: DeepSeek@Zewen Liu论文发现,当AI智能体使用语言模型在反馈循环中自我评估时,会产生系统性偏好偏差。在多模态环境中,评估者偏好崩溃(EPC)被显著放大:用GPT-4o评估DeepSeek-chat时,单一策略step_by_step吸收48.4%权重,是纯文本自评估崩溃程度的3.2倍,而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示:在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数,并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中,跨模型评估产生强对称双向传染(均值γ_{T->V}=1.176, γ_{V->T}=1.089),而自评估(DeepSeek-chat)97%运行传染为零。论文GPT-4oDeepSeek-chat多模态评估者偏好崩溃跨模态传染推荐理由:这篇论文用GPT-4o和DeepSeek-chat做实验,发现AI自我评估时策略偏好会崩坏,还跨模态传染,数字很硬核,搞多模态和智能体的值得看。原文