精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

11:48

arXiv cs.AI@Hongcheng Gao, Hailong Qu, Jingyi Tang, Jiahao Wang, Zihao Huang, Hengkang Qiao, Shihong Huang, Junming Yang, Yi Li, Hongyixuan Yuan, Wenjie Li, Bohan Zeng, Wenbo Li, Bo Wang, Jianhui Liu, Olive Huang, Haoyang Huang, Wentao Zhang, Guoqing Huang, Nan Duan, Yinpeng Dong

精选

多模态大模型在物理世界中的空间推理能力至关重要，但现有基准多依赖静态问答或特定模拟器，无法评估真实交互场景。研究者提出SpatialWorld，一个统一基准，整合8种异构仿真后端，包含760个人工标注任务，覆盖家务、旅行、社交协作等领域。智能体需在仅视觉部分可观测条件下主动收集证据，并通过统一文本接口做出决策。评估15个先进智能体发现，最强模型GPT-5平均任务成功率仅17.4%，开源模型Qwen-3.5为14.1%，表明主动探索和长程规划仍是瓶颈。

论文空间推理多模态大模型基准测试智能体仿真环境

推荐理由：做多模态智能体或空间推理研究的团队，这个基准直接暴露了当前模型在真实交互任务上的短板——GPT-5都只有17.4%成功率，值得用来检验自家模型。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02