精选理由
这篇论文搞了个Argus基准,比较了27种不确定性方法在4个VLM模型和4个GUI数据集上的表现。结论很实在:方法排名换模型就不灵了,闭源还得单独测。做智能体部署的可以看看。
Argus基准系统评估了4个VLM智能体和4个数据集上27种开箱不确定性量化方法,以及3个闭源供应商的8种方法。主要发现是UQ排名在固定模型下跨数据集稳定(Spearman rho最高0.969),但跨模型类和接口时衰减。隐状态和密度法在开箱族中最稳定,而CoCoA-1MCA、Focus等方法在特定场景胜出。闭源UQ需在目标上重新排序,平均转移相关性仅+0.08。校准后局部加权盘半径缩小40-60%,但校准-测试不匹配时覆盖度下降。
AI 翻译 · 中文
Argus基准系统评估了4个VLM智能体和4个数据集上27种开箱不确定性量化方法,以及3个闭源供应商的8种方法。主要发现是UQ排名在固定模型下跨数据集稳定(Spearman rho最高0.969),但跨模型类和接口时衰减。隐状态和密度法在开箱族中最稳定,而CoCoA-1MCA、Focus等方法在特定场景胜出。闭源UQ需在目标上重新排序,平均转移相关性仅+0.08。校准后局部加权盘半径缩小40-60%,但校准-测试不匹配时覆盖度下降。
Computer-use agents turn vision-language model (VLM) predictions into executable GUI clicks, so reliable uncertainty estimates are essential for rejection, calibration, miss-severity ranking, and spatial safety regions. …