13:08arXiv cs.AI@Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang, Yuxian Dong, Chengyin Hu, Fengyu Zhang, Yiwei Wei, Jiujiang GuoFusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成,每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明,红外感知描述对强化红外-语言对齐至关重要。AI模型FusionRSRGB-红外遥感数据集视觉语言模型双模态学习推荐理由:FusionRS填补了RGB-红外双模态遥感数据集的空白,用公开RGB图转红外风格,加上两种描述,让模型同时理解可见光和红外信息。原文