检索增强可靠性感知框架减少多模态系统视觉幻觉

精选理由

多模态模型总是幻觉？这篇论文用检索+可靠性打分，让模型不确定时主动说不知道，准确率还提升了，值得看看方法。

AI 摘要

该论文提出检索增强可靠性感知推理框架，通过构建外部视觉证据数据库及最近邻检索，估计预测可信度。在ImageNet-100上，接受预测准确率从85.84%提升至88.88%，覆盖率89.04%。幻觉错误接受率从14.16%降至11.12%。方法整合检索证据、可靠性估计和选择性决策门控，无需重新训练大模型即可减少过度自信的视觉错误。

AI 翻译 · 中文

arXiv cs.AIMultimodal large language models (MLLMs) have demonstrated strong capabilities in vision-language understanding and natural-language response generation. However, these systems can still produce overconfident predictions…

阅读原文