论文76°

Agent JIT 编译:将网页操作延迟降低 10 倍

Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling

精选理由

网页自动化开发者终于有了降低延迟的实用方案——Agent JIT 编译直接解决了顺序执行的高延迟痛点,做 RPA 或浏览器智能体的团队值得一试。

AI 摘要

现有网页操作智能体(如 Browser-Use、OpenAI CUA)采用顺序的“抓取-截图-执行”循环,每次迭代都需要调用 LLM,导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法,将任务描述直接编译为可执行代码,包含 LLM 调用、工具调用和并行化。该方法包含三个组件:JIT-Planner 生成多个代码计划并选择最低成本方案;JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略;不变式工具协议减少错误工具使用。在 5 个网页应用上,JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升,JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。

AI 翻译 · 中文

现有网页操作智能体(如 Browser-Use、OpenAI CUA)采用顺序的“抓取-截图-执行”循环,每次迭代都需要调用 LLM,导致高延迟和频繁错误。研究者提出 Agent JIT 编译方法,将任务描述直接编译为可执行代码,包含 LLM 调用、工具调用和并行化。该方法包含三个组件:JIT-Planner 生成多个代码计划并选择最低成本方案;JIT-Scheduler 通过蒙特卡洛成本估计探索并行策略;不变式工具协议减少错误工具使用。在 5 个网页应用上,JIT-Planner 相比 Browser-Use 实现 10.4 倍加速和 28% 准确率提升,JIT-Scheduler 相比 OpenAI CUA 实现 2.4 倍加速和 9% 准确率提升。

arXiv cs.AIComputer-use agents (CUA) automate tasks specified with natural language such as "order the cheapest item from Taco Bell" by generating sequences of calls to tools such as click, type, and scroll on a browser. Current im