12:35arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov精选72°苹果智能体需要理解用户身份、历史与偏好,但现有基准缺乏个性化。研究团队推出iOSWorld,首个基于原生iOS模拟器的交互式基准,包含26个新应用、133个任务,覆盖单应用、多应用及记忆与个性化三类。最佳模型(GPT-4o)整体准确率52%,多应用任务仅37%;加入XML辅助后大模型提升26个百分点,小模型无增益。该基准已开源,旨在推动真正个性化的手机智能体发展。论文智能体基准测试iOS个性化开源/仓库推荐理由:手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史,而非仅执行孤立指令,做移动端AI Agent的团队值得关注。原文