RefRad2D与RadGrounder：放射学空间定位VLM训练

精选理由

这篇论文开源了120万对的放射学双语数据集RefRad2D，训练出的RadGrounder能同时做报告生成、VQA和空间定位，空间定位还不影响语言质量，搞医疗AI的值得看看。

AI 摘要

论文提出RefRad2D数据集，包含120万CT和MR图像-文本对，覆盖德语和英语。该数据集通过LLM标注和自动分割生成任务特定的VQA和空间定位子集。基于此训练的RadGrounder模型同时支持报告生成、视觉问答和边界框检测/分割。在Slake和VQA-RAD外部基准上，RadGrounder取得与专用医学VLM竞争的结果。加入临床数据训练可提升开放VQA表现，且增加空间定位监督不降低语言质量。

AI 翻译 · 中文

arXiv cs.LGWe study how to train visually grounded vision-language models (VLMs) for radiology without manual spatial annotations. We introduce RefRad2D, a large-scale bilingual (German/English) dataset of 1.2M CT and MR image-text…

阅读原文