BinTrack:用开源视觉语言模型实现空间问答与导航的二进制跟踪

Binary Tracking for Spatial QA and Navigation with Open Vision-Language Models

精选理由

想让你家机器人找到干洗店?BinTrack用开源VLM做空间问答,性能追平GPT-4o还更快,代码数据全公开。

AI 摘要

BinTrack是一种全开源的空间定位智能体,利用机器人轨迹的时间顺序进行二进制搜索。在SpaceLocQA基准的全局类别上,BinTrack将准确率提升22.8%,甚至匹配了GPT-4o的闭源模型结果。其推理策略带来超过1.5倍的加速。论文还发布了GangnamLoop,一个在真实街道上用四足机器人采集的多行程室外基准数据集。

AI 翻译 · 中文

BinTrack是一种全开源的空间定位智能体,利用机器人轨迹的时间顺序进行二进制搜索。在SpaceLocQA基准的全局类别上,BinTrack将准确率提升22.8%,甚至匹配了GPT-4o的闭源模型结果。其推理策略带来超过1.5倍的加速。论文还发布了GangnamLoop,一个在真实街道上用四足机器人采集的多行程室外基准数据集。

arXiv cs.AIThis work addresses spatial question answering for service robots traversing long egocentric routes. Given a query such as "where can I find a dry cleaner on the way back home?", the system returns a metric coordinate th