精选理由
想知道大模型评估偏差怎么在智能体间传播?这篇论文用DeepSeek-chat做了实验,告诉你委员会投票能降72%传播,实用。
论文提出Contagion Networks框架,测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中,设定三种评估偏差画像(结构化、平衡、基于证据),测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍(MM-EPC约0.85-1.3),处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。
AI 翻译 · 中文
论文提出Contagion Networks框架,测量评估偏差在多智能体LLM系统中的传播。使用DeepSeek-chat在3个智能体实验中,设定三种评估偏差画像(结构化、平衡、基于证据),测得Cross-Agent Contagion Matrix Gamma_3中偏差传播系数gamma在0.157至0.352之间。发现同质模型智能体传播系数比先前跨模型结果弱3-5倍(MM-EPC约0.85-1.3),处于抑制区。将评估委员会从k=1增至k=3可将有效传播降低72.4%。
When large language models serve as evaluators in multi-agent systems, their systematic evaluation biases propagate through the agent network. We introduce Contagion Networks, a formal framework for measuring how evaluat…