多模态评估者偏好崩溃:自进化智能体中的跨模态传染

Multimodal Evaluator Preference Collapse: Cross-Modal Contagion in Self-Evolving Agents

精选理由

这篇论文用GPT-4o和DeepSeek-chat做实验,发现AI自我评估时策略偏好会崩坏,还跨模态传染,数字很硬核,搞多模态和智能体的值得看。

AI 摘要

论文发现,当AI智能体使用语言模型在反馈循环中自我评估时,会产生系统性偏好偏差。在多模态环境中,评估者偏好崩溃(EPC)被显著放大:用GPT-4o评估DeepSeek-chat时,单一策略step_by_step吸收48.4%权重,是纯文本自评估崩溃程度的3.2倍,而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示:在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数,并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中,跨模型评估产生强对称双向传染(均值γ_{T->V}=1.176, γ_{V->T}=1.089),而自评估(DeepSeek-chat)97%运行传染为零。

AI 翻译 · 中文

论文发现,当AI智能体使用语言模型在反馈循环中自我评估时,会产生系统性偏好偏差。在多模态环境中,评估者偏好崩溃(EPC)被显著放大:用GPT-4o评估DeepSeek-chat时,单一策略step_by_step吸收48.4%权重,是纯文本自评估崩溃程度的3.2倍,而三个视觉域策略合计仅占9.1%。跨模态传染现象揭示:在一个模态获得的评估者偏好会转移到另一个模态并扭曲策略选择。四阶段隔离训练实验测量了传染系数,并发现跨模态暴露后最优策略发生反转。在53次独立重复、15,592次API调用统计中,跨模型评估产生强对称双向传染(均值γ_{T->V}=1.176, γ_{V->T}=1.089),而自评估(DeepSeek-chat)97%运行传染为零。

arXiv: DeepSeekWhen AI agents use language models to evaluate their own outputs in a feedback loop, systematic biases emerge. We show that Evaluator Preference Collapse (EPC) is dramatically amplified in multimodal settings. Using GPT-