全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

13:10

13:10

arXiv cs.AI@Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi

72°

OmniGameArena 是一个基于 Unreal Engine 5 构建的实时游戏基准测试，包含 12 个新游戏，覆盖单人、PvP 和合作模式，并统一了动作接口。它解决了现有基准测试只报告单次尝试分数、缺乏统一协议评估不同 VLM 智能体的问题。该基准引入了改进动态曲线（IDC），通过反射机制让智能体在多轮迭代中自主优化技能提示，从而揭示智能体的学习能力和泛化表现。研究对 12 个 VLM 智能体进行了冷启动排行榜测试，并对 4 个顶级智能体应用了 IDC 分析。这项工作为评估和比较 VLM 游戏智能体的真实能力提供了更全面的框架。

论文 VLM智能体游戏基准 Unreal Engine 5 改进动态曲线智能体评估

推荐理由：做游戏 AI 或 VLM 智能体评估的团队，终于有了一个能同时看冷启动能力和学习改进曲线的统一基准，比单次分数更有参考价值，做智能体训练的值得点开。

5月30日

16:45

16:45

Stanford AI Lab@StanfordAILab

斯坦福人工智能实验室（SAIL）发布博客文章，介绍其最新研究VAGEN。VAGEN是一个强化学习框架，旨在训练视觉语言模型（VLM）智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态，从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

论文强化学习 VLM智能体世界模型视觉推理斯坦福SAIL

推荐理由：VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题，做机器人或自动驾驶研究的团队值得关注，它可能让AI的决策更接近人类推理。