微软 Webwright：约 1000 行代码让 GPT-5.4 网页智能体跑分提升 81%

精选理由

做网页自动化或智能体开发的团队，可以用这 1000 行代码让模型自己写脚本、调试、反思，效果远超传统方法，值得直接拿源码试试。

AI 摘要

微软研究院开源了网页智能体框架 Webwright，它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正，而非传统的一次预测一个低级动作。该框架仅约 1000 行代码，由 Runner、模型接口和终端环境三个核心组件构成，没有复杂编排。在 Online-Mind2Web 基准上，基于 GPT-5.4 的 Webwright 准确率达 86.67%；在长链路任务基准 Odysseys 上，得分 60.1%，比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。

AI 翻译 · 中文

IT之家IT之家 5 月 26 日消息，微软研究院本月发布开源网页智能体框架 Webwright，让 AI 模型在终端里编写 Playwright（浏览器自动化库）代码、执行 bash 命令、查看日志并反复修正。 IT之家援引博文介绍，常见网页智能体采用“截图或 DOM 状态 → 预测下一次点击、输入或滚动”模式，而微软 Webwright 让模型直接在终端中写 Playwright 代码、执行 shell 命令、检查日志、截图和报错，再持续…

阅读原文