Web agent 基准测试 Odysseys 近期成为评估自主网页浏览能力的重要标尺。微软在 2025 年发布的 Webwright 框架专门针对终端原生场景,在 Odysseys 上实现显著性能突破。据 IT 之家报道,该框架仅用约 1000 行代码,便将 GPT-5.4 在 Odysseys 上的得分从 33.5% 提升至 60.1%(原文标题:微软 Webwright:约 1000 行代码让 GPT-5.4 网页智能体跑分提升 81%)。Marktechpost 亦确认这一结果,并强调 Webwright 的终端原生设计使其在自动化任务中更具鲁棒性(原文标题:微软发布Webwright:终端原生Web Agent框架,Odysseys得分60.1%)。该框架的发布表明,轻量级、领域专精的 agent 框架正在成为提升基准测试性能的有效路径。当前焦点在于,此类框架能否在真实、开放的网页环境中稳定泛化,以及社区是否会围绕 Odysseys 以外的更多基准建立统一评估标准。未来值得观察各框架在新场景下的迁移能力及与主流浏览器 API 的整合进展。
№odysseys·general
Odysseys
别名
- 首次出现
- 2026-05-24
- 最近出现
- 2026-05-27
- 累计提及
- 5
§ 01综述
§ 02相关报道03 条在档
§ 03邻近话题