12:02arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu精选72°多模态智能体正被期望替代人类操作界面,但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线,而非仅靠图像识别。测试覆盖多种验证类型,并引入杂乱网页、困难变体等现实压力因素。结果显示,当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板,性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。论文多模态智能体CAPTCHA基准测试人机交互自动化推荐理由:CAPTCHA 是 AI 替代人类操作的最后一道门槛,做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力,结果可能会让你重新评估部署策略。原文