ClinHallu：医疗多模态大模型推理分阶段幻觉诊断基准

精选理由

诊断医疗AI幻觉的利器

AI 摘要

ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准，包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预，可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。

AI 翻译 · 中文

arXiv cs.AIBuilding trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where …

阅读原文