11:10arXiv cs.AI@Rui Yang, Qianhui Wu, Yuxi Chen, Hao Bai, Wenlin Yao, Hao Cheng, Baolin Peng, Huan Zhang, Tong Zhang, Jianfeng Gao精选76°OpenWebRL 是一个开源框架,用于在真实网站上通过在线多轮强化学习训练视觉网页智能体。该框架覆盖完整训练流程,包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级成功判断和高效的多轮策略优化。基于此框架训练的 OpenWebRL-4B 模型仅用 0.4K 初始化轨迹和 2.2K 开放 RL 训练任务,就在 Online-Mind2Web 和 DeepShop 基准上分别达到 67.0% 和 64.0% 的成功率,超越了同规模或更大规模的开源智能体,并接近 OpenAI CUA 和 Gemini CUA 等专有系统。这项工作解决了高质量演示数据收集昂贵和静态数据集覆盖有限的问题,为构建更强大、可复现且成本高效的开源网页智能体提供了实用路径。论文视觉网页智能体多轮强化学习开源框架OpenWebRL在线训练8 个信源在谈推荐理由:做网页自动化或视觉智能体的开发者终于有了一个开源的在线RL训练方案——OpenWebRL 用极少的训练数据就达到了接近专有系统的效果,值得直接拿来试试。原文