11:16arXiv cs.AI@Aneesh Komanduri, Xintao Wu精选因果生成建模对于开发可靠、透明的AI系统至关重要,但现有方法通常需要在训练时集成因果约束,缺乏利用预训练基础模型零样本推理能力的统一框架。本文提出FM-CGM,一个模块化框架,通过概念提取器、概念操纵器和反事实生成器三个核心组件,实现端到端的视觉因果推理。该框架利用大型推理模型进行因果推断,结合文本到图像扩散模型进行生成,支持零样本因果发现、干预和反事实生成。同时,作者开发了因果语义引导(CSG)机制,确保语义干预传播到后代概念并保留不变区域。实验表明,该方法能识别合理的因果结构,并生成忠实的反事实图像。论文因果生成建模基础模型零样本推理反事实生成扩散模型推荐理由:因果推理是AI可靠性的关键,FM-CGM让零样本因果生成成为可能,做视觉生成或因果推理的研究者可以直接参考其框架设计。原文
11:28arXiv cs.AI@Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu精选SpatioRoute 是一种无需训练或微调的动态提示生成方法,用于提升视觉语言模型在零样本设置下对第一人称视频的空间问答能力。它通过规则或大语言模型驱动的路由,将每个问题映射到语义定制的提示模板,在 SQA3D 基准上相比固定提示基线提升高达 5% 的准确率,且无需 3D 点云输入。研究还发现,链式思维提示在 Qwen 系列模型上反而会降低性能,表明问题感知路由比统一推理指令更有效。论文零样本推理空间问答提示工程视觉语言模型SQA3D推荐理由:做零样本视频空间推理的团队终于有了一个即插即用的提升方案——SpatioRoute 无需额外训练就能涨点 5%,做 VLM 应用的开发者可以直接在 SQA3D 上试试。原文