全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

12:35

12:35

arXiv cs.LG@Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

精选72°

苹果智能体需要理解用户身份、历史与偏好，但现有基准缺乏个性化。研究团队推出iOSWorld，首个基于原生iOS模拟器的交互式基准，包含26个新应用、133个任务，覆盖单应用、多应用及记忆与个性化三类。最佳模型（GPT-4o）整体准确率52%，多应用任务仅37%；加入XML辅助后大模型提升26个百分点，小模型无增益。该基准已开源，旨在推动真正个性化的手机智能体发展。

论文智能体基准测试 iOS 个性化开源/仓库

推荐理由：手机智能体开发者终于有了能测试个性化能力的基准——iOSWorld要求模型理解用户身份与历史，而非仅执行孤立指令，做移动端AI Agent的团队值得关注。

6月8日

09:32

09:32

arXiv cs.AI@Fuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan

论文推荐通常被当作静态排序问题，但科研阅读是每日动态过程，兴趣会变化、反馈会积累。PaperFlow 提出三阶段框架：Profiling 从异构冷启动证据构建结构化用户画像；Recommending 在固定展示预算下对每日论文流进行多信号聚合排序；Adapting 根据语义不同的反馈信号更新用户状态并建模兴趣漂移。研究还构建了包含 24 个模拟用户、50 天论文流、1200 个用户-天片段的纵向基准，并设计了盲人评估协议。实验表明 PaperFlow 在基于 oracle 的排序、模拟阅读行为对齐和盲人评估上均优于五个基线。

论文论文推荐个性化用户画像兴趣漂移 PaperFlow

推荐理由：做学术推荐系统或信息检索的团队，终于有了一个能处理每日动态兴趣变化的框架，PaperFlow 的纵向基准和盲评协议可以直接复用。