06:09rohanpaul_ai@rohanpaul_ai精选一项新研究提出了HLL基准测试,要求AI智能体完成10种CAPTCHA任务,包括识别页面元素、正确点击或拖动、跟踪状态变化并提交答案。测试发现,即使强大的智能体在静态任务中表现良好,但在页面杂乱、任务复杂或系统验证操作有效性时仍会失败。该基准旨在评估智能体在真实人机验证场景中的能力,结果显示当前AI智能体难以通过此类验证。论文HLLCAPTCHA智能体基准测试AI安全推荐理由:看看AI怎么被CAPTCHA难倒的原文
12:02arXiv cs.LG@Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu精选72°多模态智能体正被期望替代人类操作界面,但 CAPTCHA 验证是服务商故意设置的自动化屏障。新提出的 HLL 基准测试通过交互式 CAPTCHA 评估智能体能否以类人方式突破这一防线,而非仅靠图像识别。测试覆盖多种验证类型,并引入杂乱网页、困难变体等现实压力因素。结果显示,当前前沿多模态智能体在定位、动作校准、状态追踪和过程一致性上存在明显短板,性能随验证类型和界面复杂度剧烈波动。该基准为衡量智能体在受保护工作流中替代人类的能力提供了具体测试平台。论文多模态智能体CAPTCHA基准测试人机交互自动化推荐理由:CAPTCHA 是 AI 替代人类操作的最后一道门槛,做智能体自动化或 GUI 操作的团队可以用 HLL 测试自家模型的实际突破能力,结果可能会让你重新评估部署策略。原文