精选理由
诊断医疗AI幻觉的利器
ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准,包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预,可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。
AI 翻译 · 中文
ClinHallu是一个用于诊断医疗多模态大模型(MLLM)推理中分阶段幻觉的基准,包含7031个验证实例。每个实例的推理轨迹被分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预,可测量纠正特定阶段对最终答案的影响。轨迹监督微调能有效减少阶段幻觉。该基准为诊断和缓解医疗MLLM推理错误提供了细粒度测试平台。
Building trustworthy medical multimodal large language models (MLLMs) is critical for reliable clinical decision support. Existing medical hallucination benchmarks mainly focus on data collection, but often ignore where …