12:35arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov精选72°苹果智能体需要理解用户身份、历史与偏好,但现有基准缺乏个性化。研究团队推出iOSWorld,首个基于原生iOS模拟器的交互式基准,包含26个新应用、133个任务,覆盖单应用、多应用及记忆与个性化三类。最佳模型(GPT-4o)整体准确率52%,多应用任务仅37%;加入XML辅助后大模型提升26个百分点,小模型无增益。该基准已开源,旨在推动真正个性化的手机智能体发展。论文智能体基准测试iOS个性化开源/仓库推荐理由:手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史,而非仅执行孤立指令,做移动端AI Agent的团队值得关注。原文
09:32arXiv cs.AI@Fuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan论文推荐通常被当作静态排序问题,但科研阅读是每日动态过程,兴趣会变化、反馈会积累。PaperFlow 提出三阶段框架:Profiling 从异构冷启动证据构建结构化用户画像;Recommending 在固定展示预算下对每日论文流进行多信号聚合排序;Adapting 根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究还构建了包含 24 个模拟用户、50 天论文流、1200 个用户-天片段的纵向基准,并设计了盲人评估协议。实验表明 PaperFlow 在基于 oracle 的排序、模拟阅读行为对齐和盲人评估上均优于五个基线。论文论文推荐个性化用户画像兴趣漂移PaperFlow推荐理由:做学术推荐系统或信息检索的团队,终于有了一个能处理每日动态兴趣变化的框架,PaperFlow 的纵向基准和盲评协议可以直接复用。原文