精选理由
多模态模型总是幻觉?这篇论文用检索+可靠性打分,让模型不确定时主动说不知道,准确率还提升了,值得看看方法。
该论文提出检索增强可靠性感知推理框架,通过构建外部视觉证据数据库及最近邻检索,估计预测可信度。在ImageNet-100上,接受预测准确率从85.84%提升至88.88%,覆盖率89.04%。幻觉错误接受率从14.16%降至11.12%。方法整合检索证据、可靠性估计和选择性决策门控,无需重新训练大模型即可减少过度自信的视觉错误。
AI 翻译 · 中文
该论文提出检索增强可靠性感知推理框架,通过构建外部视觉证据数据库及最近邻检索,估计预测可信度。在ImageNet-100上,接受预测准确率从85.84%提升至88.88%,覆盖率89.04%。幻觉错误接受率从14.16%降至11.12%。方法整合检索证据、可靠性估计和选择性决策门控,无需重新训练大模型即可减少过度自信的视觉错误。
Multimodal large language models (MLLMs) have demonstrated strong capabilities in vision-language understanding and natural-language response generation. However, these systems can still produce overconfident predictions…