10:12arXiv cs.LG@David Steinmann, Antonia Wüst, Kristian Kersting, Wolfgang StammerCOCOLogic-V2 是一个面向现实图像的对象中心数据集,覆盖一阶逻辑的广泛子集,用于视觉归纳推理评估。它将样本分为正变体、近边界和远边界负例三类,实现对模型可解释性的细粒度诊断。实验表明,模型能很好区分正样本和远边界负例,但在近边界负例上表现失败。此外,感知噪声和大规则搜索空间在少样本场景下构成额外挑战。该数据集为推进视觉归纳推理提供了具体基础。论文COCOLogic-V2推理模型视觉理解逻辑推理可解释性推荐理由:COCOLogic-V2 这个新数据集专测视觉推理,正反例分类特别细,模型在近边界上直接翻车,做可解释 AI 的可以看看。原文
14:28arXiv cs.AI@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li精选统一多模态模型(UMMs)试图在单一架构中整合视觉理解与视觉生成,但现有训练范式将两者解耦,导致表征空间错位。本文首次系统研究生成式后训练,发现高层语义任务(如图像分割)可作为最优代理,通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优(SGT)范式,利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。论文统一多模态模型生成式后训练图像分割视觉理解视觉生成推荐理由:做多模态模型训练的团队终于有了一个能同时提升理解和生成的后训练方法——SGT用分割任务对齐表征空间,比解耦训练更高效,做视觉AI的开发者可以直接参考代码实现。原文
10:06arXiv cs.AI@Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen精选大模型在理解化学反应图方面存在视觉缺陷和语义脱节两大瓶颈。ChemVA框架通过视觉锚点机制和语义对齐方法,将化学结构图转化为模型能理解的实体名称,显著提升理解能力。在OCRD-Bench基准测试中,ChemVA实现92%的结构识别准确率,并在9种不同大模型上平均提升约20个百分点,使开源模型在复杂化学推理任务上媲美闭源系统。论文大模型化学推理视觉理解开源/仓库ChemVA推荐理由:做化学信息学或AI辅助药物研发的团队,终于有了让大模型真正看懂反应图的方法——开源框架可直接用,效果提升明显。原文