精选理由
机器人感知和 GUI 自动化开发者终于有了一个兼顾速度和精度的检测方案——LocateAnything 的并行解码设计让实时交互成为可能,做具身智能或屏幕操作 Agent 的团队值得直接试。
英伟达联合香港理工大学、南京大学发布 LocateAnything 模型,专为机器人和 AI Agent 设计,实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框,提供 Fast、Slow 和 Hybrid 三种模式,兼顾速度和精度。在单张 H100 GPU 上,Hybrid 模式每秒处理 12.7 个框,远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询,覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。
AI 翻译 · 中文
英伟达联合香港理工大学、南京大学发布 LocateAnything 模型,专为机器人和 AI Agent 设计,实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框,提供 Fast、Slow 和 Hybrid 三种模式,兼顾速度和精度。在单张 H100 GPU 上,Hybrid 模式每秒处理 12.7 个框,远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询,覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。
IT之家 5 月 30 日消息,英伟达昨日(5 月 29 日)发布博文,宣布携手香港理工大学、南京大学等, 推出 LocateAnything 模型,主打高速、高精度检测对象。 该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。 NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能“看见”还不够,还必须足够快地确认目标位置。LocateAnything 围绕检…