11:03arXiv cs.LG@Yusuf Salcan, Simon Ging, Robin Schirrmeister, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox论文提出RefRad2D数据集,包含120万CT和MR图像-文本对,覆盖德语和英语。该数据集通过LLM标注和自动分割生成任务特定的VQA和空间定位子集。基于此训练的RadGrounder模型同时支持报告生成、视觉问答和边界框检测/分割。在Slake和VQA-RAD外部基准上,RadGrounder取得与专用医学VLM竞争的结果。加入临床数据训练可提升开放VQA表现,且增加空间定位监督不降低语言质量。论文RefRad2DRadGrounder放射学VQA空间定位推荐理由:这篇论文开源了120万对的放射学双语数据集RefRad2D,训练出的RadGrounder能同时做报告生成、VQA和空间定位,空间定位还不影响语言质量,搞医疗AI的值得看看。原文