计算机使用智能体的不确定性量化：跨VLM和GUI定位数据的基准

精选理由

这篇论文搞了个Argus基准，比较了27种不确定性方法在4个VLM模型和4个GUI数据集上的表现。结论很实在：方法排名换模型就不灵了，闭源还得单独测。做智能体部署的可以看看。

AI 摘要

Argus基准系统评估了4个VLM智能体和4个数据集上27种开箱不确定性量化方法，以及3个闭源供应商的8种方法。主要发现是UQ排名在固定模型下跨数据集稳定（Spearman rho最高0.969），但跨模型类和接口时衰减。隐状态和密度法在开箱族中最稳定，而CoCoA-1MCA、Focus等方法在特定场景胜出。闭源UQ需在目标上重新排序，平均转移相关性仅+0.08。校准后局部加权盘半径缩小40-60%，但校准-测试不匹配时覆盖度下降。

AI 翻译 · 中文

arXiv cs.AIComputer-use agents turn vision-language model (VLM) predictions into executable GUI clicks, so reliable uncertainty estimates are essential for rejection, calibration, miss-severity ranking, and spatial safety regions. …

阅读原文