检索增强可靠性感知框架减少多模态系统视觉幻觉

Mitigating Visual Hallucinations in Multimodal Systems through Retrieval-Augmented Reliability-Aware Inference

精选理由

多模态模型总是幻觉?这篇论文用检索+可靠性打分,让模型不确定时主动说不知道,准确率还提升了,值得看看方法。

AI 摘要

该论文提出检索增强可靠性感知推理框架,通过构建外部视觉证据数据库及最近邻检索,估计预测可信度。在ImageNet-100上,接受预测准确率从85.84%提升至88.88%,覆盖率89.04%。幻觉错误接受率从14.16%降至11.12%。方法整合检索证据、可靠性估计和选择性决策门控,无需重新训练大模型即可减少过度自信的视觉错误。

AI 翻译 · 中文

该论文提出检索增强可靠性感知推理框架,通过构建外部视觉证据数据库及最近邻检索,估计预测可信度。在ImageNet-100上,接受预测准确率从85.84%提升至88.88%,覆盖率89.04%。幻觉错误接受率从14.16%降至11.12%。方法整合检索证据、可靠性估计和选择性决策门控,无需重新训练大模型即可减少过度自信的视觉错误。

arXiv cs.AIMultimodal large language models (MLLMs) have demonstrated strong capabilities in vision-language understanding and natural-language response generation. However, these systems can still produce overconfident predictions