Online-Mind2Web

§ 01综述

在线网页智能体面临的一个核心挑战是：如何在真实、动态的网站上完成多步任务。Online-Mind2Web 作为一项评估基准，聚焦于智能体在在线环境中的泛化与鲁棒性。近期，多篇工作围绕此基准取得显著进展。

微软发布的 Webwright 是一个终端原生的网页智能体框架，核心思路是让模型直接操作 HTML 源码而非渲染后的页面，从而减少视觉噪声。该框架仅用约 1000 行代码，使 GPT-5.4 在 Odyssey 基准上的得分从 33.5% 提升至 60.1%，在 Online-Mind2Web 上也有显著改进。(微软发布终端原生 Web Agent 框架 Webwright; 微软 Webwright：约 1000 行代码让 GPT-5.4 网页智能体跑分提升 81%; 微软发布Webwright：终端原生Web Agent框架，Odysseys得分60.1%)

Fara1.5 是微软同月发布的一系列浏览器智能体模型（4B/9B/27B），专注于计算机与网页交互。它在 Online-Mind2Web 上取得了 72% 的任务成功率，超过了 OpenAI Operator 和 Gemini 2.5 Computer Use。通过多阶段训练、规划与反思机制，Fara1.5 展现了小模型在在线任务中的潜力。(微软 Fara1.5 浏览器 AI 智能体模型发布，72% 任务成功率超 OpenAI Operator; 微软发布 Fara1.5 浏览器智能体家族，4B/9B/27B 三尺寸，性能超越 OpenAI Operator)

此外，OpenWebRL 提出了一种在线多轮强化学习框架，专门针对视觉网页智能体进行训练。该方法通过与环境交互收集奖励信号，直接优化智能体的决策策略，在多个视觉网页基准上超越了过去基于离线学习的方法。(OpenWebRL：用在线多轮强化学习训练视觉网页智能体)

当前焦点集中在：如何平衡纯代码操作（如 Webwright）与视觉理解（如 Fara1.5、OpenWebRL）两种范式，以及如何通过强化学习等在线学习方法提升智能体在未见网站上的泛化能力。未来观察点包括：多智能体协作、隐私安全、以及如何在资源受限设备上部署高性能智能体。

§ 02相关报道06 条在档

§ 03邻近话题