FusionRS: 首个大规模RGB-红外遥感双模态视觉语言数据集

FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models

精选理由

FusionRS填补了RGB-红外双模态遥感数据集的空白,用公开RGB图转红外风格,加上两种描述,让模型同时理解可见光和红外信息。

AI 摘要

FusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成,每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明,红外感知描述对强化红外-语言对齐至关重要。

AI 翻译 · 中文

FusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成,每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明,红外感知描述对强化红外-语言对齐至关重要。

arXiv cs.AIRemote sensing vision-language models have advanced Earth observation understanding, but most existing work remains centered on RGB imagery, leaving the complementary information in infrared data underexplored. Infrared