全部 AI 动态 · AI 热点

6月29日

16:53

AI Will@FinanceYF5

AGI Summit SF 2026 公布第二波嘉宾，包括 Vishal Vasishth、Fan-Yun Sun、Daksh Gupta、Alberto Taiuti、Gavin Zheng、Raymond Chen、Joshua McKibben。他们将围绕世界模型、AI信任、代码安全、基础设施扩展、影响力投资等7个议题展开讨论。峰会旨在促进AGI领域的深度交流与合作。

行业 AGI Summit SF 2026 AI信任代码安全基础设施扩展世界模型

推荐理由：AGI Summit SF 2026 第二波嘉宾名单来了，7位专家聊AI信任、代码安全和基础设施，看点十足。

原文

6月27日

12:06

World Labs (李飞飞)@theworldlabs

World Labs在SIGGRAPH 2026期间举办Worlds in Action黑客马拉松，地点为洛杉矶，时间为2026年7月18日至19日。活动聚焦于使用世界模型进行游戏、VFX、AR/VR及互动体验的开发。参与者将在两天内协作构建基于世界模型的应用项目。

行业 World Labs SIGGRAPH hackathon 世界模型游戏开发

推荐理由：World Labs要在SIGGRAPH 2026搞黑客马拉松，两天用世界模型做游戏和VFX，有兴趣的可以去看看。

原文

6月25日

06:28

Ate-a-Pi@svpino

精选

Tripo AI 推出 Project Eden 世界模型，与传统逐帧预测方案不同，它先构建包含几何、物体位置等真实状态的地图，再根据地图生成画面。该架构解决了传统模型遗忘问题，物体离开视线后仍存在于地图中，并支持多人/智能体共存与编辑。公司刚完成两轮近 2 亿美元融资，将在 SIGGRAPH 2026 展示。

AI模型 Tripo AI Project Eden 世界模型 3D 融资

推荐理由：Tripo AI 搞了个新世界模型 Project Eden，先建好地图再渲染，物体不会消失，还能多人同在一个世界。刚融资 2 亿美元，值得关注。

原文

02:37

AK@_akhaliq

阿里发布Qwen-AgentWorld，一个基于Qwen的语言世界模型，专为通用智能体设计。该模型旨在帮助智能体理解环境动态并做出决策。目前尚未公开具体的基准测试结果或性能数据。

AI模型 Qwen-AgentWorld Qwen 阿里智能体世界模型

推荐理由：阿里出了AgentWorld世界模型，让智能体能更好地理解环境，做Agent开发的朋友可以关注一下。

原文

00:49

berryxia@berryxia

77°

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI模型 Qwen Qwen-AgentWorld 世界模型 Agent 强化学习

推荐理由：通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

原文

6月24日

22:40

阿里通义 Qwen@Alibaba_Qwen

精选

Qwen发布Paradigm II，一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务，无需Agent强化学习或任务特定调优。在7项基准上均取得提升，域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。

AI模型 Qwen Paradigm II 推理模型智能体世界模型

推荐理由：Qwen做了个新Agent模型Paradigm II，不用额外训练就在终端、编码、搜索和工具调用任务上全涨分，尤其没见过的任务也管用。

原文

22:39

阿里通义 Qwen@Alibaba_Qwen

精选71°

Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型，在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标，而非后处理适配。在AgentWorldBench基准上，该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习，效果超过在真实环境中训练。仅通过预测环境的预热训练，无需智能体特定微调，预测知识即可零微调迁移至智能体任务。

AI模型 Qwen-AgentWorld 智能体世界模型模拟环境强化学习

推荐理由：阿里Qwen造了个能模拟7种环境的AgentWorld，在AgentWorldBench上干掉了Claude和GPT最新版，训练智能体不用真实环境也能更强，零微调迁移呢。

原文

6月18日

11:40

berryxia@berryxia

在YC访谈中，李飞飞指出世界模型需要超越平面像素和语言，捕捉3D结构和空间智能。Aether AI的因果世界模型进一步补全推理能力，使模型从学习相关性进化到理解因果关系。两条路线（3D空间表征+因果推理）结合，有望推动具身智能从模仿到思考的范式转变。

行业李飞飞空间智能因果世界模型世界模型具身智能

推荐理由：李飞飞直接点名空间智能是下一波重点，还和Aether AI的因果世界模型对上了线。看懂物理世界，AI才能真变聪明。

原文

6月17日

04:33

World Labs (李飞飞)@theworldlabs

World Labs联合创始人李飞飞在FastCompany采访中阐述AI愿景，强调未来AI应扎根于人类能动性、创造力和理解。她将世界模型的发展比作一场持久的模拟，一旦建立就稳定不变。该观点体现了World Labs以人为本的AI发展理念。

行业 World Labs Fei-Fei Li 世界模型人类能动性 AI未来

推荐理由：李飞飞说AI未来要围着人转，不是机器。World Labs要做持久的世界模型，挺有远见。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

07:02

NVIDIA AI@NVIDIAAI

NVIDIA 宣布将参加 2026 年在洛杉矶举办的 SIGGRAPH 大会，展示神经渲染、世界模型、物理 AI 等前沿技术，并提供动手实验室。SIGGRAPH 是计算机图形学与交互技术领域的顶级会议，NVIDIA 的参与意味着其最新图形与 AI 研究成果将集中亮相。对于图形开发者、AI 研究者和游戏行业从业者来说，这是了解下一代渲染与仿真技术的重要窗口。

行业 NVIDIA SIGGRAPH 2026 神经渲染物理 AI 世界模型

推荐理由：NVIDIA 把 SIGGRAPH 当作技术风向标，做图形渲染、物理仿真或 AI 模型的团队值得关注，可以提前规划参会或跟进后续发布。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

01:15

Yangyi@Yangyixxxx

作者认为当前AI Agent只是用新技术解决旧问题，缺乏真正的创新。他指出，从2023年到2026年，行业一直在降本增效，但并未产生新的价值场景。真正的变革需要“世界模型”改变内容模态，从而催生全新场景。作者预测世界模型可能在2027年落地，带来颠覆性变化。目前AI应用多为微创新，本质是旧世界套利，而非创造新物种。

行业 Agent 世界模型行业观察创新降本增效

推荐理由：这篇观点戳中了AI行业“降本增效”的痛点，做产品、投资的读者会反思当前Agent的局限性，值得一读。

原文

6月9日

05:01

a16z@a16z

精选

World Labs CEO 李飞飞在 Bloomberg Tech Live 上指出“世界模型”一词已被过度使用，并澄清了当前空间智能领域对世界模型的三种定义。第一类是渲染器，负责生成精美像素；第二类是规划器，主要用于机器人和机器决策；第三类是模拟器，她认为这是三者中的关键，既能成为渲染器也能成为规划器，是解锁空间智能的核心路径。World Labs 正专注于模拟器这一层的研发。

AI模型世界模型空间智能李飞飞 World Labs 模拟器

推荐理由：李飞飞把混乱的“世界模型”概念拆清楚了，做空间智能、机器人或 3D 生成的研究者值得一看，能帮你快速对齐行业术语和方向。

原文

6月4日

21:46

rohanpaul_ai@rohanpaul_ai

李飞飞指出，大语言模型擅长处理文本模式，能描述房间，但无法理解椅子移动、玻璃破碎或阳光变化时房间如何改变。她强调，世界模型旨在学习视觉背后的隐藏结构，能预测相机未捕捉的视角、模拟物体行为，并支持实体智能体在真实或虚拟环境中行动。这种模型需要共同理解空间、因果和后果，是AI从文本走向物理世界的关键一步。

论文世界模型李飞飞物理智能因果推理空间理解

推荐理由：李飞飞点出了LLM的物理盲区，做机器人、自动驾驶或空间计算的团队，看完会重新思考模型架构。

原文

13:46

AI Will@FinanceYF5

精选

李飞飞和 World Labs 团队指出，当前被统称为「世界模型」的技术实际上包含三种截然不同的方向：视频模型、游戏生成和物理引擎。它们虽然共享同一名称，但在目标、方法和应用上差异巨大。视频模型侧重预测像素序列，游戏生成关注交互式环境构建，物理引擎则强调真实物理规律模拟。这一澄清有助于避免概念混淆，推动各方向更精准的研究与落地。

AI模型世界模型视频模型游戏生成物理引擎李飞飞

推荐理由：做 AI 研究或产品的人经常被「世界模型」这个词搞混——李飞飞帮你拆清楚了，看完能少走弯路，建议点开。

原文

10:20

berryxia@berryxia

76°

AI模型世界模型空间智能李飞飞 World Labs 模拟器

推荐理由：李飞飞把被滥用的「世界模型」概念理清了，做计算机视觉、机器人或生成式 AI 的开发者能直接对照自己的研究方向找到定位，建议点开看完整分类法。

原文

06:42

Justine Moore@venturetwins

AI 领域术语“世界模型”被过度使用，令人困惑。李飞飞博士在一篇文章中将其拆解为三个核心功能，并预测了未来发展方向。该文章旨在澄清概念，帮助从业者理解世界模型的实际作用。文章还提供了对世界模型未来趋势的洞察，对于关注 AI 前沿研究的读者具有参考价值。

AI模型世界模型李飞飞 AI 术语概念澄清未来预测

推荐理由：李飞飞把最混乱的 AI 术语讲清楚了，做 AI 研究或产品的人看完能少走弯路，建议点开。

原文

04:12

a16z@a16z

精选

World Labs CEO李飞飞博士在a16z访谈中指出，语言模型擅长掌握概念、词汇和推理，但物理世界运行在空间与时间的基底上。她认为世界模型学习空间和时间的统计结构，例如光如何落在表面、物体如何响应力的物理规律。她强调语言让机器能谈论世界，而世界模型将让机器理解、想象、推理并与世界互动。

AI模型 Fei-Fei Li World Labs 世界模型空间智能

推荐理由：李飞飞讲世界模型和语言模型的本质区别

原文

6月3日

20:03

Geek@geekbb

Datawhale 推出了一套开源的世界模型课程，包含五讲和五个配套项目，覆盖从 VAE 到 Dreamer 再到评估仪表盘的完整学习路径。课程强调动手实践，帮助学习者系统理解世界模型的原理、架构和实现。对于想深入世界模型领域的研究者、学生或开发者来说，这是一份难得的免费学习资源。

AI模型世界模型开源/仓库课程 VAE Dreamer

推荐理由：想系统入门世界模型的开发者终于有了一条清晰的动手路径——五讲五项目从 VAE 到 Dreamer 全覆盖，比啃论文高效得多，建议直接跟着项目跑一遍。

原文

00:31

小互@imxiaohu

AI在医疗领域的应用正从“看片子找病灶”升级为“世界模型”，能提前模拟不同治疗方案在患者身上的长期效果，并直接推荐最优方案。该技术已在肝癌化疗栓塞和放疗中验证，将临床决策成功率提升13%。其核心价值在于，真实世界不允许多次试错，而世界模型提供了低成本、高保真的决策模拟。这一范式有望扩展到农业、城市规划、低空经济等高风险决策领域。

AI产品世界模型医疗AI 决策模拟临床治疗 FutureLivingLab

推荐理由：医疗AI终于从“识别病灶”进化到“预测疗效”，做临床决策的医生和医疗AI开发者值得关注——世界模型正在把试错成本降到零，建议点开看看它如何颠覆传统治疗流程。

原文

6月2日

17:46

rohanpaul_ai@rohanpaul_ai

76°

LongCat 发布了 WBench，一个用于测试视频世界模型的基准，将测试重点从视觉质量转向控制、多轮记忆、指令遵循和物理合理性。WBench 包含 289 个案例、1058 次交互、20 个模型、5 个维度和 22 个自动指标，覆盖导航、主体动作、事件编辑、视角切换等。测试发现，没有模型在所有维度上占优，视觉质量与控制能力几乎无关。WBench 的设计将世界设置与用户动作分离，帮助研究者定位失败原因。这标志着视频世界模型评估从“视频好不好看”转向“模型能否维持可控世界”。

论文视频生成世界模型基准测试 WBench LongCat

推荐理由：做视频生成或世界模型的研究者终于有了正经的评估工具——WBench 把视觉质量和控制能力分开测，看完你会明白为什么很多漂亮视频其实不能当世界模型用。

原文

12:10

Latent.Space@latentspacepod

精选

Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据，idea-to-code 的速度已经很快，瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切，下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端，LLM 作为后端，生成式 UI 将取代 HTML/CSS，物理具身可能成为强大 AI 的工具。

AI模型视频生成世界模型智能体扩散模型 LLM

推荐理由：Ethan He 对 AI 前沿的预判直击要害，做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察，值得点开细品。

原文

01:11

Latent.Space@latentspacepod

78°

前xAI世界模型负责人兼Nvidia Cosmos研究员Ethan He解释了AI视频可能遵循与编码智能体相同的路径。他认为文本到视频仅处于自动补全阶段，世界模型将变得实时和交互式，语言模型可能成为视频的控制层。未来AI视频可能更像一个拥有摄像头、编辑器、时间线和工具带的智能体，而非简单的提示框。Grok Imagine从零到一的开发过程展示了这一趋势。

AI产品视频智能体世界模型 Grok Imagine 生成式UI xAI

推荐理由：视频生成领域正在从“生成一段视频”进化到“智能体操控视频”，做AI视频工具或内容创作的团队值得关注这个范式转变。

原文

6月1日

14:08

Runway ML@runwayml

精选76°

Runway 宣布作为创始成员加入 Cosmos Coalition，这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议，旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统，加速世界模型的研究与开发，推动物理 AI 的进步。此举有望降低物理 AI 的门槛，促进跨机构协作，为机器人、自动驾驶等领域提供基础模型。

行业物理 AI 世界模型开源/仓库 NVIDIA Runway

推荐理由：物理 AI 开发者终于有了开放生态——Runway 和 NVIDIA 牵头开源世界模型，做机器人或自动驾驶的团队可以直接参与共建，值得关注。

原文

14:05

berryxia@berryxia

78°

Decart 发布了一个非视频生成的持久化、多人协作世界模型，核心创新在于将「世界状态」与「视觉渲染」彻底解耦。这意味着世界不再是逐帧生成的画面，而是一个持续运行、可被用户实时修改、并能从任意视角稳定观测的结构化环境。该模型支持多人同时在线交互，是目前最接近「可交互持久世界」的尝试。这一突破为游戏、虚拟世界和协作式 AI 应用提供了全新范式。

AI产品世界模型多人协作持久化 Decart 交互环境

推荐理由：做虚拟世界、游戏或协作式 AI 的团队终于有了一个真正持久化的交互环境——世界状态独立于渲染，多人可同时修改并观测。建议直接体验，这可能是下一代交互平台的原型。

原文

5月30日

16:45

Stanford AI Lab@StanfordAILab

斯坦福人工智能实验室（SAIL）发布博客文章，介绍其最新研究VAGEN。VAGEN是一个强化学习框架，旨在训练视觉语言模型（VLM）智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态，从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。

论文强化学习 VLM智能体世界模型视觉推理斯坦福SAIL

推荐理由：VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题，做机器人或自动驾驶研究的团队值得关注，它可能让AI的决策更接近人类推理。

原文

00:08

AK@_akhaliq

精选

minWM是一个全栈开源框架，专门用于构建实时交互式视频世界模型。该框架提供了从模型设计到部署的完整工具链。开发者可以利用minWM创建能够实时响应输入的环境模拟。

AI模型 minWM 世界模型视频生成开源框架

推荐理由：开源实时视频世界模型框架

原文

5月29日

09:56

rohanpaul_ai@rohanpaul_ai

精选

Yann LeCun 团队的新论文揭示了自监督模型 LeJEPA 何时能真正学到隐藏的世界变量。研究发现，只有当这些隐藏变量呈平衡的高斯分布时，LeJEPA 才能可靠地恢复它们。论文从数学上证明，当真实隐藏变量是独立高斯变量且配对视图来自稳定噪声过程时，LeJEPA 的最优解必然能恢复这些变量（至多相差一个旋转或翻转）。这为理解自监督 AI 模型何时是在学习世界结构、而非仅生成恰好有用的特征提供了理论依据。

论文自监督学习世界模型 LeJEPA 高斯分布 Yann LeCun

推荐理由：这篇论文给自监督学习社区一个清晰的数学答案：什么条件下模型真的在学世界模型。做表征学习或世界模型研究的开发者，看完会对 LeJEPA 的能力边界有更硬核的理解。

原文

5月28日

11:36

AK@_akhaliq

精选72°

Gamma-World 是一种生成式多智能体世界建模方法，超越了传统双玩家（如双人博弈）的限制，能够模拟多个智能体在复杂环境中的交互。该模型通过生成式框架学习智能体间的动态关系，适用于游戏、机器人协作等场景。研究展示了其在多智能体环境下的强大建模能力，为更复杂的群体智能研究提供了新工具。

论文多智能体世界模型生成式模型 AI研究 Gamma-World

推荐理由：多智能体系统开发者终于有了能处理超过两个智能体的世界模型——Gamma-World 解决了传统双玩家建模的瓶颈，做游戏 AI 或机器人协作的团队值得关注。

原文

5月26日

22:56

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号发布了一段由 Julia Turc 制作的关于“世界模型”的讲解视频。视频澄清了世界模型与视频生成的区别，探讨了其超越“AI 垃圾”的潜力，并幽默回应了 Yann LeCun 的争议。该视频旨在帮助观众理解这一当前 AI 领域最热门但最模糊的概念之一。

AI模型世界模型 NVIDIA 视频生成 AI 科普 Yann LeCun

推荐理由：世界模型是当前 AI 最模糊的概念之一，这个视频帮你理清它与视频生成的区别，想搞懂 AI 前沿方向的建议点开。

原文

5月25日

23:40

rohanpaul_ai@rohanpaul_ai

X Square Robot 开始将下一代家用机器人部署到真实家庭中，这是从舞台演示到日常生活的关键一步。该机器人运行名为 WALL-B 的世界模型，整合视觉、语言、触觉、动作和物理预测，以应对家庭环境的复杂性和不确定性。厨房等家庭场景并非工厂的受控环境，而是充满习惯、杂乱、宠物、儿童和不断变化物品的动态空间。这体现了 Moravec 悖论：对人类来说轻松的任务（如整理杂物、避开宠物、判断物品归属）对机器人来说极其困难。该测试旨在验证机器人在真实家庭中的适应性和实用性。

AI产品家用机器人世界模型 X Square Robot WALL-B Moravec悖论

推荐理由：家用机器人终于走出实验室进入真实家庭，做机器人研发或智能家居的团队值得关注 WALL-B 世界模型如何应对日常混乱——这比任何舞台演示都更有说服力。

原文

5月24日

10:49

Gary Marcus@GaryMarcus

精选

Gary Marcus 在推文中指出，世界模型（world model）并非新概念，已在象棋程序、导航系统、维基百科等系统中存在多年，它们是对对象、地点、事件、机制等可推理内容的显式表示。然而，当前的大语言模型（LLM）缺乏这种显式世界模型。Marcus 强调，大多数世界模型是手工构建的，真正的挑战在于如何从数据中自动获取它们。这引发了关于AI系统如何更好地理解和推理世界的讨论。

AI模型世界模型 LLM 推理 Gary Marcus 知识表示

推荐理由：Marcus 点出了LLM的核心短板——缺乏显式世界模型，做AI推理和知识表示的开发者值得关注，看完会重新思考LLM的局限性。

原文

5月23日

21:48

Gary Marcus@GaryMarcus

Gary Marcus 在 X 上发文，感叹整个 AI 领域正朝着他在 2019-2020 年倡导的神经符号与世界模型方向发展，而批评者却声称他“总是错的”。他指出，六年前他的文章《AI 的下一个十年》就以世界（认知）模型为核心，如今这一方向终于迎来时机。Marcus 的言论反映了 AI 研究范式的转变，从纯深度学习向更结构化、可解释的模型演进。

行业神经符号世界模型 GaryMarcus AI 趋势认知模型

推荐理由：Marcus 的观察点明了 AI 研究范式的关键转向，关注认知架构和符号推理的开发者值得一读，看看自己是否站在了趋势上。

原文

20:54

Gary Marcus@GaryMarcus

精选

Gary Marcus 引用六年前的文章《AI 的下一个十年》，指出世界模型（World Models）的核心地位终于得到认可。DeepMind 的 Demis Hassabis 认为当前 AI 的局限在于语言只能描述世界，无法包含世界，而世界模型是他“最持久的热情”。语言模型从文本中吸收了远超预期的现实结构，但文本只是经验的压缩残渣，无法编码重量、抓握、平衡、摩擦等物理细节。世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何随行动变化——这对于真正的智能至关重要，因为智能不仅是回答得好，更是知道下一步行动会带来什么后果。

AI模型世界模型 Gary Marcus Demis Hassabis DeepMind AGI

推荐理由：Marcus 和 Hassabis 点出了当前 LLM 的根本局限——文本无法替代真实体验，做 AI 研究或关注 AGI 方向的开发者值得深入理解世界模型为何是下一关键突破。

原文

09:26

rohanpaul_ai@rohanpaul_ai

72°

DeepMind 创始人 Demis Hassabis 指出当前 AI 的局限：语言可以描述世界，但无法包含世界。语言模型从文本中意外学到了大量现实结构，但文本只是经验的压缩残渣，而非经验本身。世界由需要亲身经历、触摸、预测、违反和修复的约束构成，而非仅由可命名的事实组成。Hassabis 认为世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何变化、行动如何产生反馈。他强调，智能不仅是回答得好，更是知道如果你移动、伸手、推、闻、滑倒或失败，接下来会发生什么。

AI模型世界模型语言模型 Demis Hassabis DeepMind AGI

推荐理由：Hassabis 点出了当前大语言模型的核心天花板——文本无法替代真实体验，做 AI 研究或关注 AGI 路径的人值得细读，看完会对世界模型的价值有更深理解。

原文

5月22日

23:47

rohanpaul_ai@rohanpaul_ai

83°

Project Genie 是 Google AI 的一项新功能，允许 Ultra 用户将美国任何真实地点的 Google Maps 街景图像转化为可交互的 AI 生成场景。这意味着用户可以通过提示词操控和探索虚拟化的真实世界环境，而不仅仅是查看静态图片。该技术展示了世界模型从模拟到现实应用的跨越，为游戏、虚拟旅游和城市规划等领域带来新可能。目前该功能仅限 Google AI Ultra 用户使用，但预示着未来更广泛的沉浸式体验。

AI产品世界模型 Google AI Project Genie 街景模拟交互式场景

推荐理由：世界模型终于从实验室走向真实场景——Project Genie 让任何人用提示词就能把街景变成可交互的虚拟世界，做游戏、VR 或城市模拟的团队值得一试。

原文

5月21日

08:00

小互@imxiaohu

一条推文将 Gemini Omni 形容为“视频版的香蕉”，暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑，而是世界模型的雏形，代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论，认为它可能推动 AI 从语言模型向多模态世界理解迈进。

AI产品 Gemini Omni 世界模型 AGI 多模态视频理解

推荐理由：如果你关注多模态 AI 和 AGI 进展，这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断，值得一看。

原文

5月20日

08:13

berryxia@berryxia

83°

Google I/O 2026 主题演讲由 Sundar Pichai 主讲，聚焦「Agentic Gemini 时代」，强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash（速度提升 4 倍，默认模型）、Gemini Omni 多模态世界模型（支持任意输入输出，理解物理世界）、Gemini Spark 全天候自主 Agent，以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中，并推出开发者工具 Antigravity 2.0。整体策略务实，注重落地而非参数竞赛。

行业 Google I/O Gemini 智能体多模态世界模型

推荐理由：Google 把 AI 从聊天工具升级为操作系统级智能体，做开发、用搜索、搞创意的团队都能直接受益——Gemini 3.5 Flash 已可用，建议开发者立刻试试。

原文

06:27

Justine Moore@venturetwins

精选

Genie是Google DeepMind开发的世界模型。演示中用户选择光球代表场景和角色，模型即时加载世界。用户可通过摇杆像玩游戏一样导航。该交互让用户实时控制世界模型中的环境与角色。

AI模型 Genie Google DeepMind 世界模型交互演示实时模拟

推荐理由：你也能像打游戏一样操控世界模型

原文

03:31

NVIDIA AI@NVIDIAAI

76°

NVIDIA 研究团队开源了 SANA-WM，一个 2.6B 参数的世界模型，能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制，为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛，对内容创作、游戏和仿真领域有重要意义。

AI模型世界模型视频生成相机控制开源/仓库 NVIDIA

推荐理由：NVIDIA 把世界模型的门槛拉到单卡可跑，做视频生成或 3D 仿真的开发者可以直接拿来用，60 秒可控视频不再是云端专属。

原文

5月19日

09:53

berryxia@berryxia

83°

Odyssey 实验室推出了 Agora-1，这是全球第一个真正实时的多agent世界模型。该模型支持人类和AI同时进入同一个模拟世界，进行实时互动和互相影响。团队以经典游戏 GoldenEye 的死亡竞赛模式作为可玩的研究预览，用户现在就可以体验与AI一起开黑、互射、抢旗，模型会实时生成画面和声音，整个世界持续更新。这标志着从单人生成视频到多人共享活世界的转变。Odyssey 认为，多agent世界模型将彻底改变游戏、模拟、教育、机器人和AI协作的方式。

AI产品世界模型多agent 实时互动 Odyssey Agora-1

推荐理由：Odyssey 把世界模型从单人演示拉进了多人实时互动，做游戏、模拟或AI协作的团队可以直接体验这个活世界，建议点开试试。

原文