精选理由
这篇让7B小模型在GUI任务规划上超过32B大模型,还分析了不同层级任务泛化的差异,很实用。
该论文提出PEEU方法,通过自主环境探索发现经验并利用事后经验生成严格对齐的高层训练数据。7B模型在真实基准上达到30.6%准确率,超越Qwen2.5-VL-32B。作者提出TDHAF框架分析任务分解的组成性泛化,发现低层原子技能掌握不保证高层规划能力,而高层任务训练对OOD泛化更关键。
AI 翻译 · 中文
该论文提出PEEU方法,通过自主环境探索发现经验并利用事后经验生成严格对齐的高层训练数据。7B模型在真实基准上达到30.6%准确率,超越Qwen2.5-VL-32B。作者提出TDHAF框架分析任务分解的组成性泛化,发现低层原子技能掌握不保证高层规划能力,而高层任务训练对OOD泛化更关键。
Multimodal web agents can assist humans in operating repetitive GUI tasks, where effective task planning is essential for decomposing complex tasks into executable actions. While small open source MLLMs are cost efficien…