arXiv cs.AI@Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat精选58本文提出 VL-DPO 框架,利用视觉语言模型(VLM)作为零样本推理器,自动从预训练模型的轨迹输出中生成偏好对,再通过直接偏好优化(DPO)微调运动预测模型,使其与人类驾驶偏好对齐。在 Waymo Open End-to-End Driving Dataset 上实验表明,VLM 的轨迹选择可作为人类偏好的高质量代理,最终模型在评分反馈(RFS)上提升 11.94%,平均位移误差(ADE)降低 10.01%。该方法解决了标准模仿学习难以捕捉人类驾驶偏好细微差异的问题,为自动驾驶行为决策提供了新的对齐思路。论文自动驾驶偏好对齐视觉语言模型直接偏好优化运动预测推荐理由:自动驾驶团队终于有了一个自动对齐人类偏好的实用方法——用 VLM 生成偏好对再微调,比手工标注高效太多,做运动预测或决策规划的开发者值得一试。
IT之家(博客/媒体)精选63微信AI团队模式识别中心在ICASSP 2026上凭借论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖,这是该奖项自2016年设立以来首次颁给中国企业团队。论文提出WalkVLM-LR模型,专为视障人士行走辅助设计,核心创新在于减少输出冗余和时间冗余,解决“何时该提醒”的问题。目前延迟控制在百毫秒量级,实时性已较可用,但仍有优化空间。该成果标志着中国企业在信号处理领域的技术突破。论文视觉语言模型信号处理微信AIICASSP视障辅助推荐理由:微信AI团队解决了视障辅助场景中VLM“说太多”和“说太频繁”的痛点,做AI助残或边缘端VLM的开发者可以关注其减少冗余的思路,实时性已接近可用,值得点开了解技术细节。
arXiv cs.AI@Junming Liu, Yuqi Li, Yifei Sun, Maonan Wang, Piotr Koniusz, Yirong Chen, Ding Wang精选67视觉语言模型(VLM)在空间推理上仍存在脆弱性,即使能正确回答原始输入,也可能在变换后失败。为此,研究者提出SAGE(Spatial Alignment via Geometric Evolution),一种自进化框架,通过几何和语言对偶操作强制VLM保持逻辑一致性。SAGE将一致性作为GRPO训练的辅助奖励,并动态调整操作池以聚焦最具信息量的信号。该方法模型无关、数据高效,可作为轻量后训练阶段应用于任何VLM。实验表明,SAGE在视频和空间推理基准上持续优于强基线,并提升了对未见数据的泛化能力。论文空间推理视觉语言模型自进化训练逻辑一致性GRPO推荐理由:空间推理是VLM的硬伤,SAGE用自进化训练解决了这个痛点,做多模态模型训练或空间理解应用的团队可以直接参考方法。
arXiv cs.AI@Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu精选58SpatioRoute 是一种无需训练或微调的动态提示生成方法,用于提升视觉语言模型在零样本设置下对第一人称视频的空间问答能力。它通过规则或大语言模型驱动的路由,将每个问题映射到语义定制的提示模板,在 SQA3D 基准上相比固定提示基线提升高达 5% 的准确率,且无需 3D 点云输入。研究还发现,链式思维提示在 Qwen 系列模型上反而会降低性能,表明问题感知路由比统一推理指令更有效。论文零样本推理空间问答提示工程视觉语言模型SQA3D推荐理由:做零样本视频空间推理的团队终于有了一个即插即用的提升方案——SpatioRoute 无需额外训练就能涨点 5%,做 VLM 应用的开发者可以直接在 SQA3D 上试试。
arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu精选58VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。