近期,微软研究院发布了 Webwright,一个终端原生的 Web Agent 框架,旨在提升大型语言模型在网页导航与任务执行方面的能力。该框架通过约 1000 行代码,结合行动空间裁剪与多步骤规划,使 GPT-5.4 在 Odysseys 基准测试中的得分从 33.5% 提高到 60.1%,提升幅度达 81%。
与此同时,CloakBrowser 宣称通过了所有 bot 检测测试,暗示其自动化浏览器可以被用于对抗网站反爬机制。这一进展引发了对 Web Agent 框架在开发测试与恶意自动化之间界限的讨论。
未来观察点在于:Webwright 能否成为微软在自主 Web 助手领域的标准工具,以及这类框架如何在提升任务成功率的同时,不被滥用为绕过网站安全措施的利器。