10:33IT之家(博客/媒体)精选72°英伟达联合香港理工大学、南京大学发布 LocateAnything 模型,专为机器人和 AI Agent 设计,实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框,提供 Fast、Slow 和 Hybrid 三种模式,兼顾速度和精度。在单张 H100 GPU 上,Hybrid 模式每秒处理 12.7 个框,远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询,覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。AI模型英伟达LocateAnything对象检测机器人感知AI Agent推荐理由:机器人感知和 GUI 自动化开发者终于有了一个兼顾速度和精度的检测方案——LocateAnything 的并行解码设计让实时交互成为可能,做具身智能或屏幕操作 Agent 的团队值得直接试。原文