多模态评估者偏好崩溃：自进化智能体中的跨模态传染

精选理由

这篇论文用GPT-4o和DeepSeek-chat做实验，发现AI自我评估时策略偏好会崩坏，还跨模态传染，数字很硬核，搞多模态和智能体的值得看。

AI 摘要

论文发现，当AI智能体使用语言模型在反馈循环中自我评估时，会产生系统性偏好偏差。在多模态环境中，评估者偏好崩溃（EPC）被显著放大：用GPT-4o评估DeepSeek-chat时，单一策略step_by_step吸收48.4%权重，是纯文本自评估崩溃程度的3.2倍，而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示：在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数，并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中，跨模型评估产生强对称双向传染（均值γ_{T->V}=1.176, γ_{V->T}=1.089），而自评估（DeepSeek-chat）97%运行传染为零。

AI 翻译 · 中文

arXiv: DeepSeekWhen AI agents use language models to evaluate their own outputs in a feedback loop, systematic biases emerge. We show that Evaluator Preference Collapse (EPC) is dramatically amplified in multimodal settings. Using GPT-…

阅读原文