微软 Webwright:约 1000 行代码让 GPT-5.4 网页智能体跑分提升 81%

约 1000 行代码搭起网页 AI 智能体:微软 Webwright 让 GPT-5.4 跑分提升 81%

精选理由

做网页自动化或智能体开发的团队,可以用这 1000 行代码让模型自己写脚本、调试、反思,效果远超传统方法,值得直接拿源码试试。

AI 摘要

微软研究院开源了网页智能体框架 Webwright,它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正,而非传统的一次预测一个低级动作。该框架仅约 1000 行代码,由 Runner、模型接口和终端环境三个核心组件构成,没有复杂编排。在 Online-Mind2Web 基准上,基于 GPT-5.4 的 Webwright 准确率达 86.67%;在长链路任务基准 Odysseys 上,得分 60.1%,比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。

AI 翻译 · 中文

微软研究院开源了网页智能体框架 Webwright,它让 AI 模型在终端中编写 Playwright 代码、执行 bash 命令、查看日志并反复修正,而非传统的一次预测一个低级动作。该框架仅约 1000 行代码,由 Runner、模型接口和终端环境三个核心组件构成,没有复杂编排。在 Online-Mind2Web 基准上,基于 GPT-5.4 的 Webwright 准确率达 86.67%;在长链路任务基准 Odysseys 上,得分 60.1%,比基础 GPT-5.4 提升 81.49%。团队还解决了模型过早宣告完成和上下文膨胀两个工程问题。

IT之家IT之家 5 月 26 日消息,微软研究院本月发布开源网页智能体框架 Webwright, 让 AI 模型在终端里编写 Playwright(浏览器自动化库)代码、执行 bash 命令、查看日志并反复修正。 IT之家援引博文介绍,常见网页智能体采用“截图或 DOM 状态 → 预测下一次点击、输入或滚动”模式,而微软 Webwright 让模型直接在终端中写 Playwright 代码、执行 shell 命令、检查日志、截图和报错,再持续