论文精选72°

iOSWorld:首个带持久用户身份的iPhone智能体基准测试

iOSWorld: A Benchmark for Personally Intelligent Phone Agents

精选理由

手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史,而非仅执行孤立指令,做移动端AI Agent的团队值得关注。

AI 摘要

苹果智能体需要理解用户身份、历史与偏好,但现有基准缺乏个性化。研究团队推出iOSWorld,首个基于原生iOS模拟器的交互式基准,包含26个新应用、133个任务,覆盖单应用、多应用及记忆与个性化三类。最佳模型(GPT-4o)整体准确率52%,多应用任务仅37%;加入XML辅助后大模型提升26个百分点,小模型无增益。该基准已开源,旨在推动真正个性化的手机智能体发展。

AI 翻译 · 中文

苹果智能体需要理解用户身份、历史与偏好,但现有基准缺乏个性化。研究团队推出iOSWorld,首个基于原生iOS模拟器的交互式基准,包含26个新应用、133个任务,覆盖单应用、多应用及记忆与个性化三类。最佳模型(GPT-4o)整体准确率52%,多应用任务仅37%;加入XML辅助后大模型提升26个百分点,小模型无增益。该基准已开源,旨在推动真正个性化的手机智能体发展。

arXiv cs.LGA useful phone agent needs to be personally intelligent. It should reason over a user's identity, history, and preferences as they exist on the device, not just follow isolated instructions in an impersonal sandbox. Exis