16:53AI Will@FinanceYF5AGI Summit SF 2026 公布第二波嘉宾,包括 Vishal Vasishth、Fan-Yun Sun、Daksh Gupta、Alberto Taiuti、Gavin Zheng、Raymond Chen、Joshua McKibben。他们将围绕世界模型、AI信任、代码安全、基础设施扩展、影响力投资等7个议题展开讨论。峰会旨在促进AGI领域的深度交流与合作。行业AGI Summit SF 2026AI信任代码安全基础设施扩展世界模型推荐理由:AGI Summit SF 2026 第二波嘉宾名单来了,7位专家聊AI信任、代码安全和基础设施,看点十足。原文
12:06World Labs (李飞飞)@theworldlabsWorld Labs在SIGGRAPH 2026期间举办Worlds in Action黑客马拉松,地点为洛杉矶,时间为2026年7月18日至19日。活动聚焦于使用世界模型进行游戏、VFX、AR/VR及互动体验的开发。参与者将在两天内协作构建基于世界模型的应用项目。行业World LabsSIGGRAPHhackathon世界模型游戏开发推荐理由:World Labs要在SIGGRAPH 2026搞黑客马拉松,两天用世界模型做游戏和VFX,有兴趣的可以去看看。原文
06:28Ate-a-Pi@svpino精选Tripo AI 推出 Project Eden 世界模型,与传统逐帧预测方案不同,它先构建包含几何、物体位置等真实状态的地图,再根据地图生成画面。该架构解决了传统模型遗忘问题,物体离开视线后仍存在于地图中,并支持多人/智能体共存与编辑。公司刚完成两轮近 2 亿美元融资,将在 SIGGRAPH 2026 展示。AI模型Tripo AIProject Eden世界模型3D融资推荐理由:Tripo AI 搞了个新世界模型 Project Eden,先建好地图再渲染,物体不会消失,还能多人同在一个世界。刚融资 2 亿美元,值得关注。原文
02:37AK@_akhaliq阿里发布Qwen-AgentWorld,一个基于Qwen的语言世界模型,专为通用智能体设计。该模型旨在帮助智能体理解环境动态并做出决策。目前尚未公开具体的基准测试结果或性能数据。AI模型Qwen-AgentWorldQwen阿里智能体世界模型推荐理由:阿里出了AgentWorld世界模型,让智能体能更好地理解环境,做Agent开发的朋友可以关注一下。原文
00:49berryxia@berryxia77°Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld,核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态,而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL,在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外,仅做环境预测的预训练能力可直接迁移到多轮Agent任务,在多个benchmark上取得显著提升,包括未见领域。Qwen开源了35B MoE版本及对应基准。AI模型QwenQwen-AgentWorld世界模型Agent强化学习推荐理由:通义千问出了个新模型,不是教Agent怎么动,而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强,还开源了35B版,值得看看。原文
22:40阿里通义 Qwen@Alibaba_Qwen精选Qwen发布Paradigm II,一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务,无需Agent强化学习或任务特定调优。在7项基准上均取得提升,域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。AI模型QwenParadigm II推理模型智能体世界模型推荐理由:Qwen做了个新Agent模型Paradigm II,不用额外训练就在终端、编码、搜索和工具调用任务上全涨分,尤其没见过的任务也管用。原文
22:39阿里通义 Qwen@Alibaba_Qwen精选71°Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型,在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标,而非后处理适配。在AgentWorldBench基准上,该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习,效果超过在真实环境中训练。仅通过预测环境的预热训练,无需智能体特定微调,预测知识即可零微调迁移至智能体任务。AI模型Qwen-AgentWorld智能体世界模型模拟环境强化学习推荐理由:阿里Qwen造了个能模拟7种环境的AgentWorld,在AgentWorldBench上干掉了Claude和GPT最新版,训练智能体不用真实环境也能更强,零微调迁移呢。原文
11:40berryxia@berryxia在YC访谈中,李飞飞指出世界模型需要超越平面像素和语言,捕捉3D结构和空间智能。Aether AI的因果世界模型进一步补全推理能力,使模型从学习相关性进化到理解因果关系。两条路线(3D空间表征+因果推理)结合,有望推动具身智能从模仿到思考的范式转变。行业李飞飞空间智能因果世界模型世界模型具身智能推荐理由:李飞飞直接点名空间智能是下一波重点,还和Aether AI的因果世界模型对上了线。看懂物理世界,AI才能真变聪明。原文
04:33World Labs (李飞飞)@theworldlabsWorld Labs联合创始人李飞飞在FastCompany采访中阐述AI愿景,强调未来AI应扎根于人类能动性、创造力和理解。她将世界模型的发展比作一场持久的模拟,一旦建立就稳定不变。该观点体现了World Labs以人为本的AI发展理念。行业World LabsFei-Fei Li世界模型人类能动性AI未来推荐理由:李飞飞说AI未来要围着人转,不是机器。World Labs要做持久的世界模型,挺有远见。原文
07:02NVIDIA AI@NVIDIAAINVIDIA 宣布将参加 2026 年在洛杉矶举办的 SIGGRAPH 大会,展示神经渲染、世界模型、物理 AI 等前沿技术,并提供动手实验室。SIGGRAPH 是计算机图形学与交互技术领域的顶级会议,NVIDIA 的参与意味着其最新图形与 AI 研究成果将集中亮相。对于图形开发者、AI 研究者和游戏行业从业者来说,这是了解下一代渲染与仿真技术的重要窗口。行业NVIDIASIGGRAPH 2026神经渲染物理 AI世界模型9 个信源在谈推荐理由:NVIDIA 把 SIGGRAPH 当作技术风向标,做图形渲染、物理仿真或 AI 模型的团队值得关注,可以提前规划参会或跟进后续发布。原文
01:15Yangyi@Yangyixxxx作者认为当前AI Agent只是用新技术解决旧问题,缺乏真正的创新。他指出,从2023年到2026年,行业一直在降本增效,但并未产生新的价值场景。真正的变革需要“世界模型”改变内容模态,从而催生全新场景。作者预测世界模型可能在2027年落地,带来颠覆性变化。目前AI应用多为微创新,本质是旧世界套利,而非创造新物种。行业Agent世界模型行业观察创新降本增效推荐理由:这篇观点戳中了AI行业“降本增效”的痛点,做产品、投资的读者会反思当前Agent的局限性,值得一读。原文
05:01a16z@a16z精选World Labs CEO 李飞飞在 Bloomberg Tech Live 上指出“世界模型”一词已被过度使用,并澄清了当前空间智能领域对世界模型的三种定义。第一类是渲染器,负责生成精美像素;第二类是规划器,主要用于机器人和机器决策;第三类是模拟器,她认为这是三者中的关键,既能成为渲染器也能成为规划器,是解锁空间智能的核心路径。World Labs 正专注于模拟器这一层的研发。AI模型世界模型空间智能李飞飞World Labs模拟器推荐理由:李飞飞把混乱的“世界模型”概念拆清楚了,做空间智能、机器人或 3D 生成的研究者值得一看,能帮你快速对齐行业术语和方向。原文
21:46rohanpaul_ai@rohanpaul_ai李飞飞指出,大语言模型擅长处理文本模式,能描述房间,但无法理解椅子移动、玻璃破碎或阳光变化时房间如何改变。她强调,世界模型旨在学习视觉背后的隐藏结构,能预测相机未捕捉的视角、模拟物体行为,并支持实体智能体在真实或虚拟环境中行动。这种模型需要共同理解空间、因果和后果,是AI从文本走向物理世界的关键一步。论文世界模型李飞飞物理智能因果推理空间理解推荐理由:李飞飞点出了LLM的物理盲区,做机器人、自动驾驶或空间计算的团队,看完会重新思考模型架构。原文
13:46AI Will@FinanceYF5精选李飞飞和 World Labs 团队指出,当前被统称为「世界模型」的技术实际上包含三种截然不同的方向:视频模型、游戏生成和物理引擎。它们虽然共享同一名称,但在目标、方法和应用上差异巨大。视频模型侧重预测像素序列,游戏生成关注交互式环境构建,物理引擎则强调真实物理规律模拟。这一澄清有助于避免概念混淆,推动各方向更精准的研究与落地。AI模型世界模型视频模型游戏生成物理引擎李飞飞推荐理由:做 AI 研究或产品的人经常被「世界模型」这个词搞混——李飞飞帮你拆清楚了,看完能少走弯路,建议点开。原文
10:20berryxia@berryxia76°李飞飞在最新文章中系统阐述了世界模型的三种核心功能:渲染器(输出像素,如文生视频模型)、模拟器(输出状态,需物理准确)和规划器(输出动作,闭合感知-行动循环)。她指出模拟器是最关键但最被低估的一环,连接渲染与规划,是实现可靠真实世界应用的核心。World Labs 的 Marble 项目展示了从多模态提示生成可探索 3D 环境的能力,同时输出视觉和物理数据。文章强调语言模型擅长文本,但物理世界需要空间智能,统一世界模型是 AI 的下一个前沿。AI模型世界模型空间智能李飞飞World Labs模拟器推荐理由:李飞飞把被滥用的「世界模型」概念理清了,做计算机视觉、机器人或生成式 AI 的开发者能直接对照自己的研究方向找到定位,建议点开看完整分类法。原文
06:42Justine Moore@venturetwinsAI 领域术语“世界模型”被过度使用,令人困惑。李飞飞博士在一篇文章中将其拆解为三个核心功能,并预测了未来发展方向。该文章旨在澄清概念,帮助从业者理解世界模型的实际作用。文章还提供了对世界模型未来趋势的洞察,对于关注 AI 前沿研究的读者具有参考价值。AI模型世界模型李飞飞AI 术语概念澄清未来预测推荐理由:李飞飞把最混乱的 AI 术语讲清楚了,做 AI 研究或产品的人看完能少走弯路,建议点开。原文
04:12a16z@a16z精选World Labs CEO李飞飞博士在a16z访谈中指出,语言模型擅长掌握概念、词汇和推理,但物理世界运行在空间与时间的基底上。她认为世界模型学习空间和时间的统计结构,例如光如何落在表面、物体如何响应力的物理规律。她强调语言让机器能谈论世界,而世界模型将让机器理解、想象、推理并与世界互动。AI模型Fei-Fei LiWorld Labs世界模型空间智能推荐理由:李飞飞讲世界模型和语言模型的本质区别原文
20:03Geek@geekbbDatawhale 推出了一套开源的世界模型课程,包含五讲和五个配套项目,覆盖从 VAE 到 Dreamer 再到评估仪表盘的完整学习路径。课程强调动手实践,帮助学习者系统理解世界模型的原理、架构和实现。对于想深入世界模型领域的研究者、学生或开发者来说,这是一份难得的免费学习资源。AI模型世界模型开源/仓库课程VAEDreamer推荐理由:想系统入门世界模型的开发者终于有了一条清晰的动手路径——五讲五项目从 VAE 到 Dreamer 全覆盖,比啃论文高效得多,建议直接跟着项目跑一遍。原文
00:31小互@imxiaohuAI在医疗领域的应用正从“看片子找病灶”升级为“世界模型”,能提前模拟不同治疗方案在患者身上的长期效果,并直接推荐最优方案。该技术已在肝癌化疗栓塞和放疗中验证,将临床决策成功率提升13%。其核心价值在于,真实世界不允许多次试错,而世界模型提供了低成本、高保真的决策模拟。这一范式有望扩展到农业、城市规划、低空经济等高风险决策领域。AI产品世界模型医疗AI决策模拟临床治疗FutureLivingLab推荐理由:医疗AI终于从“识别病灶”进化到“预测疗效”,做临床决策的医生和医疗AI开发者值得关注——世界模型正在把试错成本降到零,建议点开看看它如何颠覆传统治疗流程。原文
17:46rohanpaul_ai@rohanpaul_ai76°LongCat 发布了 WBench,一个用于测试视频世界模型的基准,将测试重点从视觉质量转向控制、多轮记忆、指令遵循和物理合理性。WBench 包含 289 个案例、1058 次交互、20 个模型、5 个维度和 22 个自动指标,覆盖导航、主体动作、事件编辑、视角切换等。测试发现,没有模型在所有维度上占优,视觉质量与控制能力几乎无关。WBench 的设计将世界设置与用户动作分离,帮助研究者定位失败原因。这标志着视频世界模型评估从“视频好不好看”转向“模型能否维持可控世界”。论文视频生成世界模型基准测试WBenchLongCat推荐理由:做视频生成或世界模型的研究者终于有了正经的评估工具——WBench 把视觉质量和控制能力分开测,看完你会明白为什么很多漂亮视频其实不能当世界模型用。原文
12:10Latent.Space@latentspacepod精选Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据,idea-to-code 的速度已经很快,瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切,下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端,LLM 作为后端,生成式 UI 将取代 HTML/CSS,物理具身可能成为强大 AI 的工具。AI模型视频生成世界模型智能体扩散模型LLM推荐理由:Ethan He 对 AI 前沿的预判直击要害,做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察,值得点开细品。原文
01:11Latent.Space@latentspacepod78°前xAI世界模型负责人兼Nvidia Cosmos研究员Ethan He解释了AI视频可能遵循与编码智能体相同的路径。他认为文本到视频仅处于自动补全阶段,世界模型将变得实时和交互式,语言模型可能成为视频的控制层。未来AI视频可能更像一个拥有摄像头、编辑器、时间线和工具带的智能体,而非简单的提示框。Grok Imagine从零到一的开发过程展示了这一趋势。AI产品视频智能体世界模型Grok Imagine生成式UIxAI10 个信源在谈推荐理由:视频生成领域正在从“生成一段视频”进化到“智能体操控视频”,做AI视频工具或内容创作的团队值得关注这个范式转变。原文
14:08Runway ML@runwayml精选76°Runway 宣布作为创始成员加入 Cosmos Coalition,这是一个由 NVIDIA 和多家顶级 AI 实验室发起的全球性倡议,旨在共同构建并开源面向物理 AI 的前沿世界模型。该联盟将通过一个通用的开放生态系统,加速世界模型的研究与开发,推动物理 AI 的进步。此举有望降低物理 AI 的门槛,促进跨机构协作,为机器人、自动驾驶等领域提供基础模型。行业物理 AI世界模型开源/仓库NVIDIARunway10 个信源在谈推荐理由:物理 AI 开发者终于有了开放生态——Runway 和 NVIDIA 牵头开源世界模型,做机器人或自动驾驶的团队可以直接参与共建,值得关注。原文
14:05berryxia@berryxia78°Decart 发布了一个非视频生成的持久化、多人协作世界模型,核心创新在于将「世界状态」与「视觉渲染」彻底解耦。这意味着世界不再是逐帧生成的画面,而是一个持续运行、可被用户实时修改、并能从任意视角稳定观测的结构化环境。该模型支持多人同时在线交互,是目前最接近「可交互持久世界」的尝试。这一突破为游戏、虚拟世界和协作式 AI 应用提供了全新范式。AI产品世界模型多人协作持久化Decart交互环境推荐理由:做虚拟世界、游戏或协作式 AI 的团队终于有了一个真正持久化的交互环境——世界状态独立于渲染,多人可同时修改并观测。建议直接体验,这可能是下一代交互平台的原型。原文
16:45Stanford AI Lab@StanfordAILab斯坦福人工智能实验室(SAIL)发布博客文章,介绍其最新研究VAGEN。VAGEN是一个强化学习框架,旨在训练视觉语言模型(VLM)智能体通过明确的视觉状态推理来构建内部世界模型。该框架使智能体能够更好地理解环境动态,从而在复杂任务中做出更合理的决策。这一进展对于提升AI在机器人、自动驾驶等需要环境理解的领域中的表现具有重要意义。论文强化学习VLM智能体世界模型视觉推理斯坦福SAIL推荐理由:VAGEN解决了VLM智能体在复杂环境中缺乏内部世界模型的问题,做机器人或自动驾驶研究的团队值得关注,它可能让AI的决策更接近人类推理。原文
00:08AK@_akhaliq精选minWM是一个全栈开源框架,专门用于构建实时交互式视频世界模型。该框架提供了从模型设计到部署的完整工具链。开发者可以利用minWM创建能够实时响应输入的环境模拟。AI模型minWM世界模型视频生成开源框架推荐理由:开源实时视频世界模型框架原文
09:56rohanpaul_ai@rohanpaul_ai精选Yann LeCun 团队的新论文揭示了自监督模型 LeJEPA 何时能真正学到隐藏的世界变量。研究发现,只有当这些隐藏变量呈平衡的高斯分布时,LeJEPA 才能可靠地恢复它们。论文从数学上证明,当真实隐藏变量是独立高斯变量且配对视图来自稳定噪声过程时,LeJEPA 的最优解必然能恢复这些变量(至多相差一个旋转或翻转)。这为理解自监督 AI 模型何时是在学习世界结构、而非仅生成恰好有用的特征提供了理论依据。论文自监督学习世界模型LeJEPA高斯分布Yann LeCun推荐理由:这篇论文给自监督学习社区一个清晰的数学答案:什么条件下模型真的在学世界模型。做表征学习或世界模型研究的开发者,看完会对 LeJEPA 的能力边界有更硬核的理解。原文
11:36AK@_akhaliq精选72°Gamma-World 是一种生成式多智能体世界建模方法,超越了传统双玩家(如双人博弈)的限制,能够模拟多个智能体在复杂环境中的交互。该模型通过生成式框架学习智能体间的动态关系,适用于游戏、机器人协作等场景。研究展示了其在多智能体环境下的强大建模能力,为更复杂的群体智能研究提供了新工具。论文多智能体世界模型生成式模型AI研究Gamma-World推荐理由:多智能体系统开发者终于有了能处理超过两个智能体的世界模型——Gamma-World 解决了传统双玩家建模的瓶颈,做游戏 AI 或机器人协作的团队值得关注。原文
22:56NVIDIA AI@NVIDIAAINVIDIA AI 官方账号发布了一段由 Julia Turc 制作的关于“世界模型”的讲解视频。视频澄清了世界模型与视频生成的区别,探讨了其超越“AI 垃圾”的潜力,并幽默回应了 Yann LeCun 的争议。该视频旨在帮助观众理解这一当前 AI 领域最热门但最模糊的概念之一。AI模型世界模型NVIDIA视频生成AI 科普Yann LeCun2 个信源在谈推荐理由:世界模型是当前 AI 最模糊的概念之一,这个视频帮你理清它与视频生成的区别,想搞懂 AI 前沿方向的建议点开。原文
23:40rohanpaul_ai@rohanpaul_aiX Square Robot 开始将下一代家用机器人部署到真实家庭中,这是从舞台演示到日常生活的关键一步。该机器人运行名为 WALL-B 的世界模型,整合视觉、语言、触觉、动作和物理预测,以应对家庭环境的复杂性和不确定性。厨房等家庭场景并非工厂的受控环境,而是充满习惯、杂乱、宠物、儿童和不断变化物品的动态空间。这体现了 Moravec 悖论:对人类来说轻松的任务(如整理杂物、避开宠物、判断物品归属)对机器人来说极其困难。该测试旨在验证机器人在真实家庭中的适应性和实用性。AI产品家用机器人世界模型X Square RobotWALL-BMoravec悖论推荐理由:家用机器人终于走出实验室进入真实家庭,做机器人研发或智能家居的团队值得关注 WALL-B 世界模型如何应对日常混乱——这比任何舞台演示都更有说服力。原文
10:49Gary Marcus@GaryMarcus精选Gary Marcus 在推文中指出,世界模型(world model)并非新概念,已在象棋程序、导航系统、维基百科等系统中存在多年,它们是对对象、地点、事件、机制等可推理内容的显式表示。然而,当前的大语言模型(LLM)缺乏这种显式世界模型。Marcus 强调,大多数世界模型是手工构建的,真正的挑战在于如何从数据中自动获取它们。这引发了关于AI系统如何更好地理解和推理世界的讨论。AI模型世界模型LLM推理Gary Marcus知识表示推荐理由:Marcus 点出了LLM的核心短板——缺乏显式世界模型,做AI推理和知识表示的开发者值得关注,看完会重新思考LLM的局限性。原文
21:48Gary Marcus@GaryMarcusGary Marcus 在 X 上发文,感叹整个 AI 领域正朝着他在 2019-2020 年倡导的神经符号与世界模型方向发展,而批评者却声称他“总是错的”。他指出,六年前他的文章《AI 的下一个十年》就以世界(认知)模型为核心,如今这一方向终于迎来时机。Marcus 的言论反映了 AI 研究范式的转变,从纯深度学习向更结构化、可解释的模型演进。行业神经符号世界模型GaryMarcusAI 趋势认知模型推荐理由:Marcus 的观察点明了 AI 研究范式的关键转向,关注认知架构和符号推理的开发者值得一读,看看自己是否站在了趋势上。原文
20:54Gary Marcus@GaryMarcus精选Gary Marcus 引用六年前的文章《AI 的下一个十年》,指出世界模型(World Models)的核心地位终于得到认可。DeepMind 的 Demis Hassabis 认为当前 AI 的局限在于语言只能描述世界,无法包含世界,而世界模型是他“最持久的热情”。语言模型从文本中吸收了远超预期的现实结构,但文本只是经验的压缩残渣,无法编码重量、抓握、平衡、摩擦等物理细节。世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何随行动变化——这对于真正的智能至关重要,因为智能不仅是回答得好,更是知道下一步行动会带来什么后果。AI模型世界模型Gary MarcusDemis HassabisDeepMindAGI推荐理由:Marcus 和 Hassabis 点出了当前 LLM 的根本局限——文本无法替代真实体验,做 AI 研究或关注 AGI 方向的开发者值得深入理解世界模型为何是下一关键突破。原文
09:26rohanpaul_ai@rohanpaul_ai72°DeepMind 创始人 Demis Hassabis 指出当前 AI 的局限:语言可以描述世界,但无法包含世界。语言模型从文本中意外学到了大量现实结构,但文本只是经验的压缩残渣,而非经验本身。世界由需要亲身经历、触摸、预测、违反和修复的约束构成,而非仅由可命名的事实组成。Hassabis 认为世界模型旨在学习物理现实的隐藏语法——物体如何持续、力如何展开、空间如何变化、行动如何产生反馈。他强调,智能不仅是回答得好,更是知道如果你移动、伸手、推、闻、滑倒或失败,接下来会发生什么。AI模型世界模型语言模型Demis HassabisDeepMindAGI推荐理由:Hassabis 点出了当前大语言模型的核心天花板——文本无法替代真实体验,做 AI 研究或关注 AGI 路径的人值得细读,看完会对世界模型的价值有更深理解。原文
23:47rohanpaul_ai@rohanpaul_ai83°Project Genie 是 Google AI 的一项新功能,允许 Ultra 用户将美国任何真实地点的 Google Maps 街景图像转化为可交互的 AI 生成场景。这意味着用户可以通过提示词操控和探索虚拟化的真实世界环境,而不仅仅是查看静态图片。该技术展示了世界模型从模拟到现实应用的跨越,为游戏、虚拟旅游和城市规划等领域带来新可能。目前该功能仅限 Google AI Ultra 用户使用,但预示着未来更广泛的沉浸式体验。AI产品世界模型Google AIProject Genie街景模拟交互式场景推荐理由:世界模型终于从实验室走向真实场景——Project Genie 让任何人用提示词就能把街景变成可交互的虚拟世界,做游戏、VR 或城市模拟的团队值得一试。原文
08:00小互@imxiaohu一条推文将 Gemini Omni 形容为“视频版的香蕉”,暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑,而是世界模型的雏形,代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论,认为它可能推动 AI 从语言模型向多模态世界理解迈进。AI产品Gemini Omni世界模型AGI多模态视频理解推荐理由:如果你关注多模态 AI 和 AGI 进展,这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断,值得一看。原文
08:13berryxia@berryxia83°Google I/O 2026 主题演讲由 Sundar Pichai 主讲,聚焦「Agentic Gemini 时代」,强调 AI 从聊天机器人进化为能自主思考、执行任务、跨设备运行的「世界模型」。主要发布包括 Gemini 3.5 Flash(速度提升 4 倍,默认模型)、Gemini Omni 多模态世界模型(支持任意输入输出,理解物理世界)、Gemini Spark 全天候自主 Agent,以及 Android XR 智能眼镜预览。Google 将 AI 深度整合到 Search、Workspace、Gmail 等产品中,并推出开发者工具 Antigravity 2.0。整体策略务实,注重落地而非参数竞赛。行业Google I/OGemini智能体多模态世界模型推荐理由:Google 把 AI 从聊天工具升级为操作系统级智能体,做开发、用搜索、搞创意的团队都能直接受益——Gemini 3.5 Flash 已可用,建议开发者立刻试试。原文
06:27Justine Moore@venturetwins精选Genie是Google DeepMind开发的世界模型。演示中用户选择光球代表场景和角色,模型即时加载世界。用户可通过摇杆像玩游戏一样导航。该交互让用户实时控制世界模型中的环境与角色。AI模型GenieGoogle DeepMind世界模型交互演示实时模拟推荐理由:你也能像打游戏一样操控世界模型原文
03:31NVIDIA AI@NVIDIAAI76°NVIDIA 研究团队开源了 SANA-WM,一个 2.6B 参数的世界模型,能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制,为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛,对内容创作、游戏和仿真领域有重要意义。AI模型世界模型视频生成相机控制开源/仓库NVIDIA2 个信源在谈推荐理由:NVIDIA 把世界模型的门槛拉到单卡可跑,做视频生成或 3D 仿真的开发者可以直接拿来用,60 秒可控视频不再是云端专属。原文
09:53berryxia@berryxia83°Odyssey 实验室推出了 Agora-1,这是全球第一个真正实时的多agent世界模型。该模型支持人类和AI同时进入同一个模拟世界,进行实时互动和互相影响。团队以经典游戏 GoldenEye 的死亡竞赛模式作为可玩的研究预览,用户现在就可以体验与AI一起开黑、互射、抢旗,模型会实时生成画面和声音,整个世界持续更新。这标志着从单人生成视频到多人共享活世界的转变。Odyssey 认为,多agent世界模型将彻底改变游戏、模拟、教育、机器人和AI协作的方式。AI产品世界模型多agent实时互动OdysseyAgora-1推荐理由:Odyssey 把世界模型从单人演示拉进了多人实时互动,做游戏、模拟或AI协作的团队可以直接体验这个活世界,建议点开试试。原文