11:21arXiv cs.AI@Dongbin Na, Chanwoo Kim, Soonbin Rho, Giyun Choi, Gangbok Lee, Dooyoung HongBinTrack是一种全开源的空间定位智能体,利用机器人轨迹的时间顺序进行二进制搜索。在SpaceLocQA基准的全局类别上,BinTrack将准确率提升22.8%,甚至匹配了GPT-4o的闭源模型结果。其推理策略带来超过1.5倍的加速。论文还发布了GangnamLoop,一个在真实街道上用四足机器人采集的多行程室外基准数据集。论文BinTrack空间问答导航SpaceLocQAGangnamLoop开源模型推荐理由:想让你家机器人找到干洗店?BinTrack用开源VLM做空间问答,性能追平GPT-4o还更快,代码数据全公开。原文
11:28arXiv cs.AI@Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu精选SpatioRoute 是一种无需训练或微调的动态提示生成方法,用于提升视觉语言模型在零样本设置下对第一人称视频的空间问答能力。它通过规则或大语言模型驱动的路由,将每个问题映射到语义定制的提示模板,在 SQA3D 基准上相比固定提示基线提升高达 5% 的准确率,且无需 3D 点云输入。研究还发现,链式思维提示在 Qwen 系列模型上反而会降低性能,表明问题感知路由比统一推理指令更有效。论文零样本推理空间问答提示工程视觉语言模型SQA3D推荐理由:做零样本视频空间推理的团队终于有了一个即插即用的提升方案——SpatioRoute 无需额外训练就能涨点 5%,做 VLM 应用的开发者可以直接在 SQA3D 上试试。原文