英伟达推出 LocateAnything，高速高精度对象检测模型

精选理由

机器人感知和 GUI 自动化开发者终于有了一个兼顾速度和精度的检测方案——LocateAnything 的并行解码设计让实时交互成为可能，做具身智能或屏幕操作 Agent 的团队值得直接试。

AI 摘要

英伟达联合香港理工大学、南京大学发布 LocateAnything 模型，专为机器人和 AI Agent 设计，实现高速、高精度对象检测。该模型通过并行框解码在单步内预测边界框，提供 Fast、Slow 和 Hybrid 三种模式，兼顾速度和精度。在单张 H100 GPU 上，Hybrid 模式每秒处理 12.7 个框，远超 Qwen3-VL 等模型。训练数据涵盖 12M 图像和 138M 查询，覆盖多种定位场景。该模型在 LVIS 高精度任务和 ScreenSpot-Pro 等基准上表现优异。

AI 翻译 · 中文

IT之家IT之家 5 月 30 日消息，英伟达昨日（5 月 29 日）发布博文，宣布携手香港理工大学、南京大学等，推出 LocateAnything 模型，主打高速、高精度检测对象。该模型可以从照片或截图中找出指定对象，并用检测框标出位置，重点服务机器人感知、电脑自动操作等需要快速定位的场景。 NVIDIA 在介绍中强调，机器人和 AI Agent（智能体）仅能“看见”还不够，还必须足够快地确认目标位置。LocateAnything 围绕检…

阅读原文