全部 AI 动态 · AI 热点

6月29日

10:08

arXiv cs.AI@Zhigang Chen, Xiawu Zheng, Rongrong Ji

CG-ICS 提出了一种概念引导的上下文分割方法，通过从参考图像中提取高层语义概念而非仅依赖低层视觉匹配来提升系统鲁棒性。该方法引入 MLLM 生成候选概念，并用 SAM3 驱动的评分函数和树搜索精炼选择可靠概念。同时并行视觉示例路径提供查询侧空间定位。在标准 ICS 基准测试上，CG-ICS 不仅达到最高精度，还将不同参考下的分割方差显著降低。

AI模型 CG-ICS 概念引导上下文分割 SAM3 MLLM

推荐理由：想让模型在不同参考图下都稳定分割？试试 CG-ICS，用概念推理代替简单视觉匹配，SAM3 和 MLLM 帮你搞定。

原文

6月26日

11:34

arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang

论文提出TOPS方法，从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干（如LLaVA-NeXT）和14个基准上，TOPS优于此前方法。在LLaVA-NeXT上，去除77.8%视觉token后，7B模型保持100.0%性能，13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。

论文 TOPS LLaVA-NeXT MLLM 视觉token剪枝推理效率

推荐理由：这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能，很实用。

原文

6月25日

10:45

arXiv cs.LG@Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli

精选

论文提出Facet-Probe审计框架，从选项、证据块、文档排序、图像集、混合模态五个维度测试18个前沿和开源MLLM的排序敏感性。采用贝叶斯项目反应模型分离排序噪声与各维度偏差，发现所有模型均非排序不变，各维度平均翻转率在24%至50%之间。Gemini在温度0下的同序控制显示，验证单元中存在远超解码器噪声的排序超额。最优模型仍有13.4%的试次输出翻转，提示词级缓解措施无法泛化到视觉推理。

论文 Facet-Probe MLLM Gemini 多模态模型可靠性

推荐理由：这篇论文用Facet-Probe测试了18个主流多模态大模型，发现它们对输入顺序都很敏感，最好的模型也错13.4%，提醒我们模型可靠性还不是想象中那么好。

原文

6月24日

12:11

arXiv cs.AI@Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun

统一多模态大语言模型在文本到图像生成中仍难以精确遵循结构提示（如物体计数、空间关系、属性绑定、粗略布局）。IV-CoT提出的隐式视觉思维链框架将视觉条件分解为结构查询和语义查询的级联，结构查询先形成隐式视觉计划，语义查询再基于该计划渲染外观。训练时引入草图监督信号，无需推理时草图提取或中间解码，在单个前向传播中完成隐式CoT推理。该方法在GenEval和T2I-CompBench基准上取得更优结果，可视化分析验证了结构和语义查询的互补作用。

论文 IV-CoT MLLM 文本到图像生成结构感知视觉思维链

推荐理由：这篇论文解决了文生图模型在物体数量、空间位置等结构细节上经常翻车的问题，用隐式思维链单次前向传播搞定，在GenEval和T2I-CompBench上效果更好。

原文

6月18日

10:34

arXiv cs.LG@Sihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

ViGOS是一种针对多模态大语言模型(MLLM)的后训练框架，采用解耦感知与推理的自蒸馏方法(OPSD)。学生模型先生成视觉描述，再基于此进行推理，避免直接利用文本目标产生捷径。实验在通用视觉-语言、专家推理、视觉数学、空间定位和视觉-语言先验五类基准上验证，ViGOS在易出现捷径的场景中显著提升了图像依赖行为。

论文 ViGOS MLLM OPSD 多模态自蒸馏

推荐理由：这篇论文提出了ViGOS，专门解决多模态模型自蒸馏时只看文本不看图的毛病，在多个视觉语言基准上有效果。

原文

09:41

arXiv cs.AI@Jinhao Song, Shan Liang, Yiqun Yue, Zhuhuayang Zhang, Tianqi Gao

ThinkDeception首次将多模态大语言模型(MLLM)引入欺骗检测领域，将其从二分类任务转变为显式认知推理过程。研究团队构建了首个逐步多模态思维链(CoT)数据集，并基于此开发基础模型ThinkDeception Base。核心创新是提出Visual-Audio Consistency Group Relative Policy Optimization(VAC-GRPO)，采用渐进式训练将数据分为四个难度层级。在主流基准上，ThinkDeception在检测准确性和推理质量上达到新SOTA。

AI模型 ThinkDeception MLLM 多模态思维链(CoT)推理模型

推荐理由：这个框架用MLLM和思维链一步步拆解欺骗线索，比黑箱模型更能解释为什么判定说谎，准确率还最高。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

09:47

arXiv cs.LG@Hangling Xie

该论文提出MAF（多模态自适应少样本提示）框架，用于提升多模态大语言模型在情感分析任务中的表现。MAF动态检索与查询相关的演示样本，通过编码面部表情、场景上下文和文本语义，并引入唇动幅度检测机制在多人场景中准确识别说话人。一个轻量级系数生成网络被训练用于实时输出查询条件化融合权重，加权聚合多模态相似度以选取Top-K信息量最大的示例。在多个公开基准数据集上，MAF相比骨干模型取得显著且一致的性能提升，并与强基线方法保持竞争力。

论文 MAF MLLM 情感分析少样本提示多模态

推荐理由：这篇论文提出MAF，能根据输入动态挑选示例来引导MLLM做情感分析，在多个数据集上效果提升明显，比固定提示强很多。

原文

09:44

arXiv cs.AI@Maonan Wang, Zhengyan Huang, Kemou Jiang, Yuhang Fu, Jiayue Zhu, Yuxin Cai, Xingchen Zou, Qiaosheng Zhang, Yi Yu, Ding Wang, Xi Chen, Ben M. Chen, Yuxuan Liang, Zhiyong Cui, Man On Pun, Yirong Chen

OmniTraffic是一个基于12个真实十字路口重建3D环境的可控生成管道，可编辑车道拓扑、信号相位等参数。它产出800万VQA样本和3000个人工验证的测试集，覆盖场景感知、多视角推理和决策支持三个层级。评估11个前沿MLLM显示人类与模型间存在显著差距，尤其在拓扑和时空推理任务上。基于OmniTraffic模拟数据微调轻量级MLLM后，在真实场景中性能得到提升。

论文 OmniTraffic 交通推理 MLLM 多模态 3D重建

推荐理由：想研究交通场景的多模态推理？OmniTraffic提供了大规模可控数据集和基准，还能用模拟数据微调小模型提升真实表现，很实用。

原文

6月15日

11:10