全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

09:43

09:43

arXiv cs.AI@Wanlong Fang, Tianle Zhang, Wen Tao, Alvin Chan

本文提出使用部分信息分解（PID）作为决策级框架，用于分离多模态大语言模型中视觉和语言输入的独特、冗余和协同贡献。在视觉-语言基准测试中，PID揭示了重复出现的模态使用模式：推理和接地任务表现出高协同性，而专家和知识任务则更依赖语言独有信息。这些模式在不同模型家族中泛化，并能预测对模态级干预的敏感性。研究还扩展了PID到三模态系统（感官PID），将语言作为控制变量分解视频-音频信息增益，发现即使在音视频融合任务中，视觉信息也主导了感官协同瓶颈。最后，PID引导的重新加权初步证明了改善多模态推理和接地性能的潜力。

论文多模态大模型部分信息分解模态交互可解释性协同性

推荐理由：做多模态模型可解释性研究的团队，终于有了一个能量化模态间协同与冗余的框架，比传统的表示对齐和结果评估更深入，值得关注其方法论和实验设计。