论文精选72°

HLL 基准测试:AI 智能体能否突破人类验证的最后防线?

HLL: Can Agents Cross Humanity's Last Line of Verification?

精选理由

CAPTCHA 是 AI 替代人类操作的最后一道门槛,做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力,结果可能会让你重新评估部署策略。

AI 摘要

多模态智能体正被期望替代人类操作界面,但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线,而非仅靠图像识别。测试覆盖多种验证类型,并引入杂乱网页、困难变体等现实压力因素。结果显示,当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板,性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

AI 翻译 · 中文

多模态智能体正被期望替代人类操作界面,但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线,而非仅靠图像识别。测试覆盖多种验证类型,并引入杂乱网页、困难变体等现实压力因素。结果显示,当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板,性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。

arXiv cs.LGMultimodal agents are increasingly expected to operate interfaces on behalf of users, raising a central deployment question: can they truly substitute for humans in workflows that services deliberately protect against au