09:43arXiv cs.AI@Duy Tran Thanh论文提出MagikaDocumentFromPixel,一个轻量级CPU图像质量门,在单个CPU核上约7ms判断图像为清晰、模糊或不确定。基于46配置8扫描经验搜索,发现输入分辨率是主导杠杆。引入边缘先验模块(EPM),通过拉普拉斯幅度辅助输入使F1提升1.3点。在GoPro Large帧上以384x384训练,F1达0.9803(AUC 0.9989),ONNX模型仅17 MB。局限性包括仅针对单一运动模糊分布和单次种子结果。论文MagikaDocumentFromPixelMobileNetV3-LargeEPM模糊检测视觉语言模型推荐理由:这论文搞了个超轻量的图像模糊检测模块,7毫秒就能判断,能帮下游视觉语言模型省掉很多无用计算。实测F1到0.98,模型才17MB,值得做生产管线的看看。原文
13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
12:53arXiv cs.LG@Andrei Liviu Nicolicioiu, Sarvjeet Singh Ghotra, Morgane M. Moss, Aaron Courville论文提出一种自举的Self-Filtering方法,通过迭代训练CLIP模型并动态筛选数据混合来提升训练数据质量。该方法在不需要额外数据或预训练模型的情况下,平衡了高置信度干净样本与全分布多样样本。实验表明,经该方法过滤后的视觉语言数据集在下游任务上性能显著提升。该方法避免了传统启发式或依赖参考数据集的局限。论文CLIP数据选择自过滤视觉语言模型推荐理由:这篇论文教你怎么自动筛选高质量训练数据,用CLIP自己迭代过滤,效果比手动搞还好,还不用额外数据。原文
10:53arXiv cs.AI@Yundaichuan Zhan, Minghe Gao, Zhongqi Yue, Wendong Bu, Wenqiao Zhang, Guoming Wang, Jisheng Dang, Juncheng Li, Siliang Tang, Yueting ZhuangSCOPE 提出一种自适应的符号规划框架,由 Symbolic Execution Simulator(SESim)和 Self-Adaptive Symbolic Memory(SASMem)两个模块协同工作。SESim 通过符号验证和实际执行反馈来 refine 行动计划和进化符号世界;SASMem 则将反馈蒸馏为可演化的符号知识。在开放环境实验中,SCOPE 使符号世界完整性提升,在环境扰动下计划成功率提高,并增强了跨任务泛化能力。AI模型SCOPE符号规划视觉语言模型智能体推荐理由:搞机器人规划的朋友可以看看 SCOPE,它用符号执行加记忆更新解决开放世界符号不完整的老问题。原文
10:15arXiv cs.AI@Shihao Ji, HongXi Li, Zihui Song, Mingyu LiLagrange提出基于掩码潜在场(MLF)的开放词汇稀疏驾驶框架,利用视觉语言模型(VLM)编码类无关目标提议为连续语义视觉标记。通过意图驱动的掩码交叉注意力模块过滤无关实体,将注意力解码为空间坐标上的隐式连续能量场。将决策制定为跨越该能量场的拉格朗日动作最小化问题,强制遵守车辆运动学并执行碰撞避免。在nuScenes和CODA基准上的离线评估显示,该框架实现了鲁棒、可解释且运动学可行的开放世界自主性。论文Lagrange自动驾驶视觉语言模型掩码潜在场端到端驾驶推荐理由:自动驾驶新框架Lagrange用掩码潜在场和VLM处理开放世界异常,比密集模型更高效,在nuScenes和CODA上表现不错。原文
13:08arXiv cs.AI@Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang, Yuxian Dong, Chengyin Hu, Fengyu Zhang, Yiwei Wei, Jiujiang GuoFusionRS是用于遥感双模态视觉语言学习的首个大规模RGB-红外-文本数据集。它由超过100万对对齐的RGB和红外风格图像组成,每对包含场景描述和红外感知描述。基于FusionRS训练的CLIP-style和生成式VLM模型在RGB-红外对齐、红外-文本检索和双模态描述任务上均优于纯RGB训练基线。消融实验表明,红外感知描述对强化红外-语言对齐至关重要。AI模型FusionRSRGB-红外遥感数据集视觉语言模型双模态学习推荐理由:FusionRS填补了RGB-红外双模态遥感数据集的空白,用公开RGB图转红外风格,加上两种描述,让模型同时理解可见光和红外信息。原文
11:38arXiv: OpenAI@Marta Vallejo, Siwen Wang该研究通过十名参与者观看33张安全风险场景图像的眼动数据,生成人口平均注视热图。使用GPT-4o通过OpenAI Vision API生成视觉注意力显著性图,并与注视数据比较。空间对齐评估采用四个指标:皮尔逊相关系数0.515±0.117、NSS 0.988±0.323、KL散度1.766±0.844、AUC-Judd 0.806±0.076。与Gemini Pro、Gemini Flash和Claude的对比显示,所有模型AUC-Judd超过机会基线0.5且NSS为正。Gemini Pro在三个指标上定位最强,GPT-4o在KL散度上分布匹配最佳。论文GPT-4oGemini ProGemini FlashClaude视觉语言模型注意力安全场景10 个信源在谈推荐理由:想知道AI能不能像人一样在危险场景下抓住关键区域?这篇论文用GPT-4o、Gemini Pro等模型做了对比,发现它们不靠眼动训练数据就能大致预测人类注视点。原文
11:12arXiv cs.AI@Jianzhe Lin论文发现验证器驱动的自DPO方法在视觉语言模型自改进中存在任务特异性问题。在MathVista、MMMU和BLINK上用开源验证器阶梯测试,同一验证器在MathVista上提升Qwen-3-VL-2B学生模型,但在MMMU上验证器准确率降至8%-23%,导致学生模型性能下降3.4-10.9个百分点。该现象在Qwen-2.5-VL-3B上复现。论文给出基于方差定理的机械论解释,指出目标任务验证器质量而非参数量才是关键。论文Qwen-3-VL-2BMathVistaMMMU视觉语言模型自改进推荐理由:验证器在新任务上会拖后腿原文
16:13marktechpost@Asif RazzaqZyphra 发布了 Zamba2-VL 系列开源视觉语言模型,包含 1.2B、2.7B 和 7B 三个参数版本。该模型采用混合 Mamba2 状态空间和 Transformer 骨干架构,在 Apache 2.0 许可下发布。与同类 Transformer 视觉语言模型相比,Zamba2-VL 在保持竞争力的同时,将首 token 生成时间降低了约一个数量级。这标志着在高效视觉语言推理方面的重要进展,尤其适合对延迟敏感的应用场景。AI模型视觉语言模型Mamba2Transformer开源/仓库低延迟推荐理由:做视觉语言模型部署或实时推理的开发者,Zamba2-VL 的首 token 延迟优势能显著提升用户体验,值得直接尝试。原文
11:30arXiv cs.AI@Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu精选视觉语言模型(VLM)将图像投影为数百到数千个视觉令牌,导致解码器推理成本高昂。现有方法通常采用“排序并移除”范式,永久丢弃低分令牌。但研究发现,视觉令牌的重要性会随解码器深度变化,早期低分令牌可能在后续层变得重要。为此,研究者提出Reroute,一种无需训练的插件,将移除改为可恢复路由:被延迟的令牌在后续阶段重新进入候选池。该方法在FastV、PDrop等方案上,在LLaVA-1.5和Qwen骨干上,在激进令牌缩减下提升了接地性能,同时保持VQA性能。这表明VLM令牌缩减应视为可恢复路由,而非不可逆修剪。代码已开源。论文视觉语言模型令牌缩减可恢复路由推理优化开源/仓库推荐理由:VLM推理成本高是实际部署的痛点,Reroute用零训练代价解决了令牌缩减中信息丢失的问题,做多模态模型优化或部署的团队可以直接集成到现有方案中,值得一试。原文
11:32arXiv cs.AI@Mahmood Alzubaidi, Uzair Shah, Raden Muaz, Ines Abbes, Nader Mohammed, Abdullatif Magram, Khalid Alyafei, Mowafa Househ, Marco Agus精选FADA 是一个基于 Qwen3.5-VL 构建的统一视觉语言模型,能够通过单一流程完成胎儿超声图像的临床解读、分类、检测和分割,无需外部标签。它通过选择性蒸馏技术从四个领域专用基础模型中提取知识,在分割任务上达到 0.8820 平均 Dice,检测 mAP@0.50 为 0.7671,解读合规率 100%。专家验证显示,在 237 张图像上,临床指导模式下 73.5% 的解读获得满分。该系统可在单张消费级 GPU 上训练,并能在搭载骁龙 7 Gen 1 的智能手机上离线运行完整流程约 60 秒,为资源受限地区的产前超声筛查提供了可行方案。AI模型FADAQwen3.5-VL胎儿超声视觉语言模型边缘部署推荐理由:FADA 解决了中低收入国家超声技师短缺导致的产前筛查缺口,做医疗 AI 或边缘部署的团队可以直接在手机上跑完整流程,值得关注其开源代码和模型。原文
10:07arXiv cs.AI@Peiqi Jia, Haonan Jia, Ziqi Miao, Linkang Du, Yuntao Wang, Zhou Su精选该论文首次在视觉语言模型(MLLMs)中引入显式人格条件,建立了涵盖单人格诱导、多人格诱导和人格切换的系统评估框架。实验发现,人格诱导能提升图像描述性能,但会损害需要精确推理的任务(如视觉问答)。多人格组合和动态切换时存在平衡与残留效应,模型行为受前后人格约束共同调节。现有基于提示的人格诱导方法在多模态场景下迁移性有限。研究揭示了MLLMs人格建模的动态复杂性,呼吁开发更鲁棒、定制化的方法。论文视觉语言模型人格建模多模态行为控制评估框架推荐理由:做多模态AI行为控制或社交机器人开发的团队,这篇论文揭示了人格诱导对推理能力的意外损害,值得在模型部署前仔细评估。原文
11:17arXiv cs.AI@Cong Chen, Guo Gan, Kaixiang Ji, ChaoYang Zhang, Zhen Yang, Guangming Yao, Hao Chen, Jingdong Chen, Yi Yuan, Chunhua ShenMemDreamer 是一种新型框架,通过解耦感知与推理,将长视频理解转化为智能体探索过程。它采用分层图记忆架构,将视频流增量构建为三层语义抽象,并利用智能体工具增强检索机制,在推理时通过观察-推理-行动循环导航节点和逻辑边。实验表明,MemDreamer 在四个主流基准测试中达到最先进水平,与人类专家的差距缩小至仅 3.7 分。它仅使用全上下文 2% 的推理窗口,却带来 12.5 分的绝对准确率提升。此外,统计发现视觉语言模型在逻辑推理与长视频理解性能间存在强正线性相关,表明智能体能力扩展是多模态理解的新范式。论文长视频理解智能体检索分层图记忆视觉语言模型推理模型推荐理由:长视频理解一直受限于 token 爆炸和注意力稀释,MemDreamer 用智能体检索和分层记忆解决了这个痛点。做视频分析、多模态研究的团队可以直接参考其框架,在现有模型上即插即用,值得一试。原文
09:30arXiv cs.AI@Sweta Mahajan, Sukrut Rao, Jiahao Xie, Alexander Koller, Bernt SchieleCLIP等视觉语言模型存在图文嵌入对齐差的问题,因为图像包含的信息远超其标题描述。TEVI框架利用稀疏自编码器解耦图像嵌入,并训练掩码模块根据标题选择性重建嵌入,从而保留标题描述的特征、丢弃无关信息。在合成标题的受控实验中,TEVI能有效保留标题描述的属性。在MS COCO、Flickr、IIW、DOCCI等基准测试中,TEVI提升了检索性能,尤其在长标题任务上增益更明显,同时增强了RoCOCO基准的鲁棒性。论文CLIP稀疏自编码器图文对齐检索增强视觉语言模型推荐理由:CLIP用户常遇到图文检索不准的痛点,TEVI用稀疏自编码器精准对齐嵌入,做多模态检索或视觉问答的团队可以直接参考其方法改进模型。原文
12:39arXiv cs.LG@Tengfei Zhang, Ziheng Zhao, Lisong Dai, Xiaoman Zhang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Weidi Xie精选该研究提出了一个实体感知的跨图像比较推理框架 MedReCo,用于解决放射科实践中依赖前后对比和参考病例的诊断需求。研究构建了 MedReCo-DB 大规模数据集,包含来自 8 家机构、4 个国家、7 种影像模态的 69 万张图像,并将报告分解为解剖结构、异常发现和病理条件。基于此,开发了用于可控检索的 MedReCo 编码器和用于生成式比较解读的 MedReCo-VLM 视觉语言模型。在内部、外部和跨中心评估中,MedReCo 在 12 项内部检索设置中均取得最高 Recall@1,外部检索平均提升 6 个百分点;MedReCo-VLM 在比较生成评估中全面最优,纵向随访准确率提升 14.5-46.5 个百分点(胸片)和 13.0-27.9 个百分点(CT)。这表明实体感知的比较推理可从常规临床数据中大规模学习,为医学影像 AI 提供更贴近临床的范式。论文医学影像比较推理视觉语言模型检索放射科推荐理由:放射科医生和医学影像 AI 研究者终于有了一个能真正做前后对比和参考病例检索的框架——MedReCo 在 12 项检索任务中全胜,做临床 AI 落地的团队值得关注。原文
12:49Fireworks AI@FireworksAI_HQ精选72°Step 3.7 Flash 是阶跃星辰(StepFun)发布的 198B 稀疏 MoE 视觉语言模型,专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器,支持原生多模态理解和行动,可靠工具使用,以及增强的网页和视觉搜索。在真实智能体工作负载下,推理速度可达 400 tok/sec,并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。AI模型视觉语言模型稀疏MoE推理效率智能体StepFun1 个信源在谈推荐理由:多数实验室事后才考虑推理效率,而 Step 3.7 Flash 从设计之初就为推理优化,做智能体应用和视觉语言模型的开发者可以直接试用,感受 400 tok/sec 的流畅体验。原文
10:58arXiv cs.AI@Mahtab Bigverdi, Lindsey Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna多模态语言模型在空间推理任务中常因无法直接观察关键信息而表现不佳。研究者提出 Imaginative Perception Tokens (IPT),一种中间感知表征,让模型能推断未观察到的空间结构,如从不可见视角看物体、追踪遮挡路径等。在 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务上,IPT 监督显著提升空间推理准确率,在 MVC 上提升 3.4%,且优于文本思维链训练。研究发现文本思维链在空间计算中可能因模态不匹配而降低性能,而 IPT 提供了更有效的监督信号。该方法无需在推理时生成图像,即可产生可解释的中间表征,提升泛化能力。论文空间推理多模态模型Imaginative Perception Tokens视觉语言模型思维链推荐理由:空间推理是多模态模型的短板,IPT 提供了一种不依赖文本思维链的监督方式,做视觉推理或空间理解的团队可以直接参考论文方法。原文
10:43arXiv cs.LG@Hanjiang Hu, Yiyuan Pan, Jiaxing Li, Xusheng Luo, Alexander Robey, Na Li, Yebin Wang, Changliu Liu精选VLESA 是一个面向具身 AI 的安全框架,通过分析第一人称视频实时预测危险动作并触发干预。它解决了“意图依赖的安全”问题——相同动作在不同情境下可能安全或危险。研究团队引入了配对第一人称帧与目标条件安全标注的数据集,并训练了基于 GRPO 的目标条件安全 Q 过滤器,无需重新训练即可评估动作安全性。在 ASIMOV-2.0 基准上,VLESA 在精确帧上实现了更高的干预准确率,GRPO 训练的 Q 过滤器通过目标条件约束解码将动作安全性提升了超过 41 个百分点。代码已开源。论文具身智能安全监控视觉语言模型GRPO开源/仓库推荐理由:做具身 AI 安全或人机协作的团队,VLESA 提供了一个可落地的实时安全监控方案,能根据上下文判断危险动作,建议直接看论文和代码。原文
12:04arXiv cs.AI@Hilton Raj, Vishnuram AVMASER 提出了一种轻量级框架,解决现有视觉语言模型(VLM)在3D环境中仅针对单一模态微调、忽略问题语义可能更适合其他模态的问题。该框架在共享VLM骨干上训练五个不同模态适配器(自然语言、RGB图像、点云、深度图、相机姿态),并通过神经路由策略在推理时根据问题选择最优适配器。在Open3D-VQA基准测试中,点云模态在51.5%情况下最优,MASER的路由准确率达到51.3%的oracle一致性,优于随机森林的43.5%,且每次推理仅需一次适配器调用。这项工作为具身智能体在3D空间中的多模态推理提供了高效解决方案。论文具身智能3D空间智能多模态路由视觉语言模型Open3D-VQA推荐理由:做具身智能或3D视觉问答的团队,终于有了一个不用暴力融合所有模态的轻量方案——MASER根据问题语义动态选最优模态,点云在超半数场景下最准,值得在Open3D-VQA上试试。原文
11:12arXiv cs.AI@Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci工业异常检测领域近年引入多模态视觉语言模型,声称可通过文本指令实现零样本或少样本检测。但现有评估方法沿用单模态基准,无法验证模型是否真正依赖文本条件。本文提出TGAD结构化基准,通过三个递进场景测试:MVTec AD上的提示敏感性测试、组件级标注扩展、以及新构建的组装面板数据集APD。测试发现,三种代表性模型(生成式大视觉语言模型、无训练判别式、嵌入自适应判别式)均仅表面响应文本指令:移除物体名词后生成模型I-AUROC从97.4降至82.6;组件指令无法约束决策;在APD上图像级判别甚至低于随机水平(最低31.5)。结果表明当前多模态异常检测系统的文本引导能力被高估,需要此类基准才能实现工业部署所需的可靠语言控制。论文异常检测多模态基准测试视觉语言模型工业检测推荐理由:做工业视觉检测的团队会发现,当前号称支持文本引导的模型其实并不听指令——TGAD基准直接戳破了这个泡沫,建议点开看看你的模型是否真的被语言控制。原文
09:42arXiv cs.AI@Bingyu Li, Da Zhang, Tao Huo, Zhiyuan Zhao, Junyu Gao, Xuelong Li精选多时序指代分割(MTRS)是一项新任务,要求模型从多时序图像中分割出语言描述的时间变化。研究团队提出了CRAFT-Agent自动化数据构建流程,并构建了首个基准MTRefSeg-21K,包含2.1万高质量三元组。现有视觉语言模型在该任务上表现不佳,为此团队提出了MTRefSeg-R1框架,采用两阶段训练策略,先学习通用时序变化感知,再微调实现细粒度语言引导定位。实验表明,MTRefSeg-R1显著优于现有基线,揭示了多时序视觉推理的挑战与潜力。论文多时序推理指代分割视觉语言模型基准数据集变化检测推荐理由:做多模态视觉推理或时序变化检测的团队,这个新基准和基线模型值得关注——它填补了LVLM在时序推理上的空白,可以直接用来评估和提升模型能力。原文
10:38arXiv cs.AI@Arnau Marin-Llobet, Simon Henniger, Mahzarin R. Banaji精选研究发现,视觉语言模型(VLM)在处理性别模糊的图像(如全副武装的工人、背影)时,即使内部编码了女性关联,输出仍倾向于男性,尤其在传统女性职业上表现明显。研究者提出零样本指标LALS,通过将视觉token激活投影到文本嵌入空间,逐层测量概念关联。实验覆盖15个职业、800多张模糊图像和4个VLM,发现模型内部存在不对称过滤:男性信号从头到尾增强,女性信号在中间层达到峰值后被压制。服装颜色等文化线索会进一步调节内部关联。这项研究揭示了VLM在模糊输入下的性别偏见机制,对AI公平性评估有重要启示。论文视觉语言模型性别偏见LALS模型对齐公平性推荐理由:做AI公平性研究或模型对齐的团队,这篇论文直接戳破了VLM在模糊输入下的性别偏见黑箱——LALS方法让你能逐层看到模型内部编码与输出的脱耦,建议做模型审计的开发者点开看看具体实验设计。原文
05:27marktechpost@Asif RazzaqStepFun 发布了 Step 3.7 Flash,一个 198B 参数的 MoE(混合专家)视觉语言模型,原生支持视觉理解、256k 上下文窗口和 Advisor Mode(顾问模式)。该模型针对编程智能体和搜索工作流进行了优化,能够在复杂任务中提供高效推理和代码生成能力。Step 3.7 Flash 的发布标志着多模态大模型在专业领域应用的重要进展,尤其适合需要长上下文理解和视觉-语言联合推理的场景。AI模型Step 3.7 FlashMoE视觉语言模型编程智能体搜索工作流推荐理由:做 AI 编程智能体或搜索应用的团队可以直接用上 256k 上下文和视觉能力,Step 3.7 Flash 的 Advisor Mode 能显著提升复杂任务处理效率,值得关注。原文
11:05arXiv cs.AI@Xiaona Zhou, Muntasir Wahed, Tianjiao Yu, Constantin Brif, Ismini Lourentzou研究者发现现有视觉语言模型在时序异常检测任务上表现不佳,主要原因是公开数据集缺乏自然语言解释,难以微调模型。为此,他们构建了VisAnomBench基准,从公开时序数据中筛选并利用多个大模型生成高质量异常解释。基于此微调出参数高效的VisAnomReasoner模型,在VisAnomBench上精度和F1分别提升至少21.23和23.87个百分点,在TSB-AD-U基准上也展现出强泛化能力。这项工作让小型VLM在时序异常检测中变得可靠且可解释。论文时序异常检测视觉语言模型VisAnomReasonerVisAnomBench参数高效微调推荐理由:时序异常检测终于有了可解释的小模型方案,做工业监控或运维分析的团队可以直接用VisAnomReasoner替代大模型,精度更高、成本更低,建议点开看具体微调方法。原文
11:49arXiv cs.AI@Xinrui Shi, Kai Liu, Ziqing Zhang, Jianze Li, Anqi Li, Yulun Zhang精选轻量级视觉语言模型在标准基准上表现不错,但在需要多步推理的密集场景中(如多个物体、属性、关系)系统性地失败。为此,研究者首先构建了DRBench基准,包含14,573个问题、2,943张图像,覆盖5类任务和3个推理层次。然后提出DRScaffold框架,通过将监督目标分解为四个因果有序阶段,在不改动模型架构的情况下强制进行有依据的推理。实验表明,使用DRScaffold训练的Qwen2.5-VL-3B在DRBench上超越了冻结的Qwen2.5-VL-32B,证明结构化监督可以替代大量模型规模。代码和模型已开源。论文视觉语言模型密集场景推理DRBenchDRScaffoldQwen2.5-VL推荐理由:轻量级VLM在复杂场景中经常胡编乱造,DRScaffold用结构化监督解决了这个痛点,做视觉推理或部署小模型的团队可以直接用它的框架和基准来提升可靠性。原文
11:18arXiv cs.AI@Jiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong精选PhotoFlow 提出了一种基于智能体的虚拟摄影框架,能够在无预设相机位姿或参考图像的情况下,根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块,通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准,包含47个场景和141个语言条件摄影任务。实验表明,PhotoFlow 在六轮渲染预算下,成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。论文智能体3D场景理解虚拟摄影视觉语言模型闭环搜索推荐理由:做3D场景理解或自动摄影的团队,PhotoFlow 把语言指令到相机参数的全流程打通了,可以直接用它的闭环搜索思路提升自己的渲染管线。原文
11:13arXiv cs.AI@Jianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu精选该研究通过SpaceNum框架系统评估了视觉语言模型(VLMs)在空间数值理解上的表现,包括动态探索和静态布局两种场景。实验发现,当前VLMs在将视觉空间结构与语言数值表示进行映射时,表现接近随机猜测,严重依赖浅层空间线索。模型难以建立稳定的坐标感知表示,也无法从视觉观察中抽象出结构化空间布局。即使加入显式推理或微调,提升也有限。这项研究揭示了VLMs在具身环境中输出数值(如动作幅度、空间坐标)时,可能并未真正理解其空间含义。论文视觉语言模型空间推理数值理解具身智能基准测试推荐理由:做具身智能或空间推理的开发者会发现,当前VLMs的数值输出可能只是“看起来对”,实际缺乏空间感知——这项研究用严谨实验戳破了这个盲区,值得关注。原文
09:54arXiv cs.LG@Bo Peng, Jie Lu, Guangquan Zhang, Zhen Fang本文提出一种去偏负样本挖掘方法,用于改进基于预训练视觉语言模型(VLM)的分布外(OOD)检测。现有方法依赖启发式规则从无标签语料中挖掘负标签,但存在严重的假负样本问题。作者通过理论框架校正负标签的采样偏差,将其转化为基于 ID 标签和无标签语料的蒙特卡洛采样。实验表明,该方法在多种 OOD 检测设置下达到新的最优性能。代码已开源。论文OOD 检测视觉语言模型负样本挖掘蒙特卡洛采样开源/仓库推荐理由:做 OOD 检测或 VLM 应用的开发者,这篇解决了负样本挖掘的假负问题,理论扎实且效果显著,值得直接参考代码复现。原文
11:21arXiv cs.AI@Yakun Yu, Ashley Wiens, Adrián Barahona-Ríos, Benedict Wilkins, Saman Zadtootaghaj, Nabajeet Barman, Cor-Paul Bezemer精选现有视觉语言模型(VLM)在游戏故障检测评估中,大多将故障视为静态视觉异常,忽略了时间性故障——这类故障需通过帧间变化才能识别。研究者提出TempGlitch基准,包含五种时间性故障类型及配对的无故障视频,用于系统评估。对12个开源和闭源VLM的测试显示,当前模型在TempGlitch上表现接近随机,要么过于保守漏检,要么过于敏感误报。增加帧采样密度或模型规模并不能可靠解决这些问题。该基准为时间推理、游戏理解和自动化故障检测提供了聚焦测试平台。论文视觉语言模型游戏QA故障检测时间推理基准测试推荐理由:游戏QA团队和VLM研究者终于有了专门测试时间性故障的基准——当前模型表现接近随机,说明这是个硬骨头,做自动化测试的值得关注。原文
09:46arXiv cs.AI@Yutong Xie, Zhenglin Hua, Ran Wang, Wing W. Y. Ng, Xizhao Wang, Yuheng Jia精选大型视觉语言模型(LVLMs)在视觉语言任务中表现出色,但仍易产生与视觉内容不一致的幻觉。研究发现,幻觉源于模型对正确视觉证据关注不足,并在生成过程中逐渐遗忘。作者提出基于层间视觉注意力差异(ILVAD)的无需训练方法,通过识别并增强对视觉证据的注意力,同时选择与视觉证据强相关的文本token进行强调。在五个最新模型上的多项基准测试中,该方法一致地缓解了幻觉,且即插即用。代码已开源。论文幻觉缓解视觉语言模型注意力机制无需训练开源/仓库推荐理由:做LVLM幻觉研究的开发者可以直接用这个无需训练的方法来提升模型可靠性,代码已开源,值得一试。原文
16:00arXiv cs.AI@Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat精选本文提出 VL-DPO 框架,利用视觉语言模型(VLM)作为零样本推理器,自动从预训练模型的轨迹输出中生成偏好对,再通过直接偏好优化(DPO)微调运动预测模型,使其与人类驾驶偏好对齐。在 Waymo Open End-to-End Driving Dataset 上实验表明,VLM 的轨迹选择可作为人类偏好的高质量代理,最终模型在评分反馈(RFS)上提升 11.94%,平均位移误差(ADE)降低 10.01%。该方法解决了标准模仿学习难以捕捉人类驾驶偏好细微差异的问题,为自动驾驶行为决策提供了新的对齐思路。论文自动驾驶偏好对齐视觉语言模型直接偏好优化运动预测推荐理由:自动驾驶团队终于有了一个自动对齐人类偏好的实用方法——用 VLM 生成偏好对再微调,比手工标注高效太多,做运动预测或决策规划的开发者值得一试。原文
09:43IT之家(博客/媒体)精选微信AI团队模式识别中心在ICASSP 2026上凭借论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖,这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出WalkVLM-LR模型,专为视障人士行走辅助设计,核心创新在于减少输出冗余和时间冗余,解决“何时该提醒”的问题。目前延迟控制在百毫秒量级,实时性已较可用,但仍有优化空间。该成果标志着中国企业在信号处理领域的技术突破。论文视觉语言模型信号处理微信AIICASSP视障辅助推荐理由:微信AI团队解决了视障辅助场景中VLM“说太多”和“说太频繁”的痛点,做AI助残或边缘端VLM的开发者可以关注其减少冗余的思路,实时性已接近可用,值得点开了解技术细节。原文
16:00berryxia@berryxia腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。论文古文字识别OCR视觉语言模型文化遗产腾讯推荐理由:古文字识别是AI视觉的硬核边界,做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型,看看它们穿越回3000年前还能不能认出字。原文
11:42arXiv cs.AI@Junming Liu, Yuqi Li, Yifei Sun, Maonan Wang, Piotr Koniusz, Yirong Chen, Ding Wang精选视觉语言模型(VLM)在空间推理上仍存在脆弱性,即使能正确回答原始输入,也可能在变换后失败。为此,研究者提出SAGE(Spatial Alignment via Geometric Evolution),一种自进化框架,通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励,并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效,可作为轻量后训练阶段应用于任何VLM。实验表明,SAGE在视频和空间推理基准上持续优于强基线,并提升了对未见数据的泛化能力。论文空间推理视觉语言模型自进化训练逻辑一致性GRPO推荐理由:空间推理是VLM的硬伤,SAGE用自进化训练解决了这个痛点,做多模态模型训练或空间理解应用的团队可以直接参考方法。原文
11:28arXiv cs.AI@Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu精选SpatioRoute 是一种无需训练或微调的动态提示生成方法,用于提升视觉语言模型在零样本设置下对第一人称视频的空间问答能力。它通过规则或大语言模型驱动的路由,将每个问题映射到语义定制的提示模板,在 SQA3D 基准上相比固定提示基线提升高达 5% 的准确率,且无需 3D 点云输入。研究还发现,链式思维提示在 Qwen 系列模型上反而会降低性能,表明问题感知路由比统一推理指令更有效。论文零样本推理空间问答提示工程视觉语言模型SQA3D推荐理由:做零样本视频空间推理的团队终于有了一个即插即用的提升方案——SpatioRoute 无需额外训练就能涨点 5%,做 VLM 应用的开发者可以直接在 SQA3D 上试试。原文
11:50arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu精选VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。原文