全部 AI 动态 · AI 热点

arXiv cs.AI@Jaewoo Lee, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Supriyo Chakraborty, Kartik Balasubramaniam, Sambit Sahu, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

精选

计算机使用智能体（CUA）在执行GUI任务时，现有批评模型存在短视和缺乏视觉基础两大局限。研究者提出HiViG框架，通过多模态批评器记录历史动作并基于截图验证执行坐标，在预执行阶段拦截错误。在网页、移动和桌面基准测试中，HiViG使Qwen3-VL-32B和Gemini-3-Flash的成功率分别提升5.8%和9.0%，并展现出强跨平台泛化能力。消融实验表明，宏观动作历史和视觉基础批评对长程GUI任务至关重要。

论文计算机使用智能体批评模型视觉基础 GUI自动化 HiViG

推荐理由：做GUI自动化智能体的团队终于有了能记住历史并看清屏幕的批评器——HiViG在长任务中显著提升成功率，建议做CUA开发的直接看论文。

原文

5月21日

09:46

arXiv cs.AI@Minghao Chen, Xinyi Hu, Zhou Yu, Yufei Yin

精选

AutoRPA是一个新框架，能将ReAct风格的LLM智能体决策逻辑自动转化为高效的RPA函数。它通过翻译-构建流水线，把硬编码的ReAct动作转为软编码过程，并利用多轨迹检索增强生成合成鲁棒的RPA函数。在代码验证阶段，采用混合修复策略，结合RPA执行和ReAct回退进行迭代优化。实验表明，AutoRPA生成的RPA函数在解决相似任务时，token使用量减少82%到96%，显著提升了运行时效率和可复用性。

论文 RPA LLM智能体 GUI自动化代码合成效率优化

推荐理由：做GUI自动化的团队终于有了兼顾效率和智能的方案——AutoRPA把LLM的推理能力压缩成轻量RPA函数，省掉重复调用LLM的高昂成本，做流程自动化的开发者可以直接用起来。

原文

5月13日

19:12

arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye

精选75°

计算机使用智能体（CUA）在同时使用原子GUI操作（如点击、输入）和高级工具调用（如API文件操作）时，常因无法判断何时切换而导致执行路径次优。为解决这一问题，研究者提出ToolCUA，一种端到端智能体，通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括：利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT，以及在线智能体强化学习优化。在OSWorld-MCP基准上，ToolCUA达到46.85%准确率，相比基线提升约66%，并比纯GUI设置提升3.9%，证明了混合动作空间训练的有效性。项目已开源。

论文计算机使用智能体 GUI自动化工具调用强化学习开源/仓库

推荐理由：做GUI自动化或智能体开发的团队，这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体，建议点开看看方法细节。

原文