iOSWorld：首个带持久用户身份的iPhone智能体基准测试

精选理由

手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史，而非仅执行孤立指令，做移动端AI Agent的团队值得关注。

AI 摘要

苹果智能体需要理解用户身份、历史与偏好，但现有基准缺乏个性化。研究团队推出iOSWorld，首个基于原生iOS模拟器的交互式基准，包含26个新应用、133个任务，覆盖单应用、多应用及记忆与个性化三类。最佳模型（GPT-4o）整体准确率52%，多应用任务仅37%；加入XML辅助后大模型提升26个百分点，小模型无增益。该基准已开源，旨在推动真正个性化的手机智能体发展。

AI 翻译 · 中文

arXiv cs.LGA useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Exis…

阅读原文