09:43arXiv cs.AI@Wanlong Fang, Tianle Zhang, Wen Tao, Alvin Chan本文提出使用部分信息分解(PID)作为决策级框架,用于分离多模态大语言模型中视觉和语言输入的独特、冗余和协同贡献。在视觉-语言基准测试中,PID揭示了重复出现的模态使用模式:推理和接地任务表现出高协同性,而专家和知识任务则更依赖语言独有信息。这些模式在不同模型家族中泛化,并能预测对模态级干预的敏感性。研究还扩展了PID到三模态系统(感官PID),将语言作为控制变量分解视频-音频信息增益,发现即使在音视频融合任务中,视觉信息也主导了感官协同瓶颈。最后,PID引导的重新加权初步证明了改善多模态推理和接地性能的潜力。论文多模态大模型部分信息分解模态交互可解释性协同性推荐理由:做多模态模型可解释性研究的团队,终于有了一个能量化模态间协同与冗余的框架,比传统的表示对齐和结果评估更深入,值得关注其方法论和实验设计。原文