EPC诊断框架揭示GPT-4o评估器漂移:版本间偏好耦合从强到零

A Diagnostic Framework and Multi-Evaluator Audit of Evaluator-Driven Preference Dynamics in Self-Adapting LLM Agents

精选理由

这篇论文告诉你,你以为可靠的GPT-4o评估器可能几周后就失效了,它还给了你一个EPC框架来自己检查。

AI 摘要

论文提出EPC诊断框架,包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下(N=122次重复)发现耦合系数均值范围0.00-1.18,其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合(N=36),而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地,GPT-4o从5月到6月的版本漂移(N=8重复实验)导致结论反转,自评估条件97%为零(JSD=0.003)。

AI 翻译 · 中文

论文提出EPC诊断框架,包含多模态偏好崩溃指数(MPCI)、评估器耦合矩阵和JS散度(JSD)。在8种实验条件下(N=122次重复)发现耦合系数均值范围0.00-1.18,其中GPT-4o May、GPT-4o-mini、Qwen3.7-plus和DashScope 30r四个条件显示强耦合(N=36),而GPT-4o June、qwen-plus N=30等四个条件崩溃到近零。特别地,GPT-4o从5月到6月的版本漂移(N=8重复实验)导致结论反转,自评估条件97%为零(JSD=0.003)。

arXiv: DeepSeekMeasurements of proprietary LLM evaluators can become invalid within weeks -- we document one case and provide the diagnostic framework to detect it. We introduce EPC -- comprising the Multimodal Preference Collapse Inde