精选理由
做多模态嵌入或视觉-语言模型研究的开发者,这篇论文点出了 CLIP 类模型在概念绑定上的核心瓶颈,并给出了可复现的解决方案,值得深入阅读。
人类能轻松将颜色与形状绑定(如“红色圆形”),但 CLIP 等视觉-语言嵌入模型在多物体场景中无法正确绑定概念,表现为“词袋”行为。研究发现,CLIP 的场景嵌入可加性分解为物体表征,但绑定函数复杂度高,导致图像与文本编码器无法学习共享的绑定机制,难以泛化到未见过的概念组合。通过从头训练的受控 Transformer 模型,作者发现当数据覆盖足够时,模型能学会低复杂度的绑定函数(涉及概念间的乘法交互),实现系统性泛化。该工作揭示了嵌入模型在概念绑定上的根本限制与突破条件,代码已开源。
AI 翻译 · 中文
人类能轻松将颜色与形状绑定(如“红色圆形”),但 CLIP 等视觉-语言嵌入模型在多物体场景中无法正确绑定概念,表现为“词袋”行为。研究发现,CLIP 的场景嵌入可加性分解为物体表征,但绑定函数复杂度高,导致图像与文本编码器无法学习共享的绑定机制,难以泛化到未见过的概念组合。通过从头训练的受控 Transformer 模型,作者发现当数据覆盖足够时,模型能学会低复杂度的绑定函数(涉及概念间的乘法交互),实现系统性泛化。该工作揭示了嵌入模型在概念绑定上的根本限制与突破条件,代码已开源。
Humans easily determine which color belongs to which shape in multi-object scenes, an ability known as concept binding. Vision-language embedding models such as CLIP struggle with binding: they recognize individual conce…