MAF：面向MLLM的多模态自适应少样本提示情感分析框架

精选理由

这篇论文提出MAF，能根据输入动态挑选示例来引导MLLM做情感分析，在多个数据集上效果提升明显，比固定提示强很多。

AI 摘要

该论文提出MAF（多模态自适应少样本提示）框架，用于提升多模态大语言模型在情感分析任务中的表现。MAF动态检索与查询相关的演示样本，通过编码面部表情、场景上下文和文本语义，并引入唇动幅度检测机制在多人场景中准确识别说话人。一个轻量级系数生成网络被训练用于实时输出查询条件化融合权重，加权聚合多模态相似度以选取Top-K信息量最大的示例。在多个公开基准数据集上，MAF相比骨干模型取得显著且一致的性能提升，并与强基线方法保持竞争力。

AI 翻译 · 中文

arXiv cs.LGMultimodal large language models (MLLMs) have demonstrated remarkable capabilities in understanding complex multimodal content. However, their performance in sentiment analysis exhibits acute sensitivity to prompt design…

阅读原文