微软发布终端原生 Web Agent 框架 Webwright

微软发布终端原生 Web Agent 框架:Webwright https://t.co/yV6p876par 核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都...

精选理由

Webwright 用代码即动作的思路解决了传统 Web Agent 每次依赖 LLM 判断的低效问题,做浏览器自动化或 RPA 的开发者可以直接用 Playwright 脚本复用成果,值得一试。

AI 摘要

微软开源了 Webwright,一个终端原生的 Web Agent 框架,核心设计是“代码即动作”——让 LLM 直接编写 Playwright 脚本,将网页操作转化为可运行的 Python 程序。该框架在 Online-Mind2Web 和 Odysseys 基准测试中达到 SOTA 水平,架构极简,仅约 1000 行代码,无隐藏编排层。Webwright 已集成 Claude Code 和 OpenAI Codex 插件,支持任务完成后自动渲染为 HTML 应用(Task2UI 模式)。其脚本可复用、可审计,适合需要稳定浏览器自动化的开发者和团队。

AI 翻译 · 中文

微软开源了 Webwright,一个终端原生的 Web Agent 框架,核心设计是“代码即动作”——让 LLM 直接编写 Playwright 脚本,将网页操作转化为可运行的 Python 程序。该框架在 Online-Mind2Web 和 Odysseys 基准测试中达到 SOTA 水平,架构极简,仅约 1000 行代码,无隐藏编排层。Webwright 已集成 Claude Code 和 OpenAI Codex 插件,支持任务完成后自动渲染为 HTML 应用(Task2UI 模式)。其脚本可复用、可审计,适合需要稳定浏览器自动化的开发者和团队。

shao__meng微软发布终端原生 Web Agent 框架:Webwright github.com/microsoft/webw… 核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维: · 让 LLM 写 Playwright 脚本 —— 把网页操作变成可运行的 Python 程序 · 工作区即状态 —— 脚本、截图、日志保存在本