全部 AI 动态 · AI 热点

6月24日

16:20

pandaily@contact@pandaily.com (Pandaily)

智谱AI、生数科技、Momenta等清华关联公司正聚焦世界模型，将其视为AI下一前沿。这些公司在视频生成、机器人控制、自动驾驶三个领域探索世界模型架构。世界模型旨在模拟物理世界规律，使AI具备环境理解和因果推理能力。智谱AI已发布GLM-4系列，未来计划将世界模型融入多模态系统。

行业 Zhipu AI Shengshu Tech Momenta 世界模型自动驾驶

推荐理由：清华系三家公司分别在视频、机器人、自动驾驶搞世界模型，这波前沿玩法值得关注

原文

6月18日

10:30

10:30IT之家（博客/媒体）

蔚来今日推送世界模型全新版本，超70万用户可同步升级，最早4年前车主也能升级。新版本在原有「世界模型+闭环强化学习」基础上，新增监督微调训练层，形成三层框架，利用好行为数据雕刻精细行为。该版本首次在国内实现智能辅助驾驶直出方向盘和加减速踏板操作信号，替代输出采样轨迹，提升控车精准度。在无高精地图前提下，选路准确性宣称行业领先，并首个实现对潮汐车道、可变车道天空路牌的实时识别与理解。

AI产品蔚来世界模型智能驾驶端到端用户升级

推荐理由：蔚来推送新版本了，超70万用户能升，连4年前老车主都行。选路更准，还能看懂潮汐车道，控车也更细腻。

原文

02:30

Decoder@Matthias Bastian

73°

Amazon、Nvidia、AMD向世界模型初创公司Odyssey ML投资3.1亿美元，该公司估值达14.5亿美元。CIA关联基金IQT和谷歌首席科学家Jeff Dean也参与本轮融资。世界模型被业界视为语言模型后的下一个AI重点方向。

行业 Odyssey ML Amazon Nvidia AMD 世界模型

推荐理由：亚马逊、英伟达、AMD都砸钱进这家3D世界模型公司，连Jeff Dean都跟投了，看来世界模型是下一波风口。

原文

00:35

量子位@henry

71°

一家头部具身大脑公司完成数亿美元新一轮融资，投资方共15家VC。该公司坚持世界模型技术路线，半年内先后在开源、端侧和训练场三个方向发布方案。具体开源项目名称和端侧部署参数尚未披露。训练场支持与多种机器人硬件适配。该轮融资将用于扩大研发团队和加速产品落地。

行业具身智能融资世界模型开源模型端侧部署

推荐理由：一家专注具身大脑的公司又融了一大笔钱，世界模型路线，15家VC跟进。开源、端侧、训练场三连发，你可以关注它的技术方案。

原文

6月17日

23:23

23:23IT之家（博客/媒体）

阿里云6月17日发布HappyOyster 1.0（快乐生蚝1.0），支持一句话生成可实时交互的数字世界。该产品基于原生多模态架构，能推演物理因果链并保持人物与环境长程一致性。不同于传统“写prompt等渲染”的流程，用户可实时输入指令，画面即时响应。目前官网开放“实时导演”和“世界探索”两种玩法，支持虚拟男友互动、短剧剧情改写、开放世界移动等功能。2025年4月16日起开放内测，至7月17日官网可领取体验积分。

AI产品 HappyOyster 阿里云快乐生蚝世界模型实时交互

推荐理由：阿里云搞了个好玩的：一句话就能生成能边玩边改的动态世界，像游戏一样探索，还能和虚拟男友实时互动，快去体验。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月14日

21:58

Decoder@Jonathan Kemper

精选

Mirage由微软研究院与多所大学联合开发。它直接在潜在空间存储场景信息，而非基于像素的点云。该方法将计算时间和显存需求大幅降低，同时支持长镜头下的空间一致性。模型目前无法可靠追踪跨片段的移动物体。

AI模型 Mirage Microsoft Research 视频生成世界模型潜在空间

推荐理由：视频生成空间记忆新方案

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

15:42

Pandaily@contact@pandaily.com (Pandaily)

精选

北京大学研究团队推出EvoPhys-World，号称全球首个以人为中心、场景级、全可控的5D世界模型。该模型基于摩尔线程的国产算力基础设施构建，支持物理交互与动态场景生成。在多个仿真场景中，EvoPhys-World实现了物体物理属性与空间关系的实时推理。其自进化机制可基于交互反馈持续优化模型行为，无需人工标注。

AI模型 EvoPhys-World 北京大学 5D世界模型国产算力世界模型

推荐理由：北大开源5D世界模型，物理交互自进化

原文

10:06

pandaily@contact@pandaily.com (Pandaily)

精选

中国具身智能公司 Kuawei Intelligence 在 2026 年 5 月的 WorldArena Track 2（数据引擎）全球基准测试中排名第一，超越了 WoW 和 BLM 等国际竞争对手。这一成就标志着中国在具身 AI 领域的重要突破，凸显了其在世界模型研究方面日益增强的竞争力。Kuawei Intelligence 专注于开发能够理解和模拟物理世界的 AI 模型，此次夺冠验证了其技术路线的有效性。

行业具身智能世界模型 Kuawei Intelligence WorldArena 全球基准

推荐理由：具身智能赛道迎来中国玩家登顶，做机器人或世界模型研究的团队值得关注 Kuawei 的技术路径，看看他们如何用数据引擎超越国际对手。

原文

6月3日

18:42

18:42IT之家（博客/媒体）

阿里集团副总裁兼搜推智能产品事业部总裁张凯夫已离职创业，方向是构建面向市场的世界模型。他认为预测集体人类行为，尤其是市场行为，是AI尚未征服的终极挑战之一。张凯夫在阿里任职近十年，深度参与淘宝商家生态与流量运营，曾推动AI在淘宝搜索、推荐和广告ROI上的显著提升。他正在招募相关人才加入。

行业世界模型市场预测创业阿里 AI应用

推荐理由：张凯夫从阿里电商AI操盘手转向市场行为预测，做AI+金融/商业分析的团队可以关注这个新方向，看看世界模型如何落地市场预测。

原文

17:41

17:41IT之家（博客/媒体）

Momenta 宣布获得无锡市智能网联汽车道路测试与示范应用许可，并于今年1月起在当地启动测试。公司计划在2026年内于全球多个新城市及区域落地高阶自动驾驶，重点推进技术场景验证与民生出行服务。Momenta 已在国内上海、苏州及海外慕尼黑、阿布扎比等地运营 Robotaxi，并正拓展欧洲、新加坡及日本市场。其发布的 R7 强化学习世界模型已应用于 L4 级自动驾驶，提升车辆在复杂场景中的通行能力。Momenta 与 Uber、Grab、梅赛德斯-奔驰等合作，量产智驾方案搭载量超80万台，覆盖十余个国家和地区。

行业自动驾驶 Momenta 路测许可 Robotaxi 世界模型

推荐理由：Momenta 的全球扩张和 R7 世界模型落地，让关注自动驾驶落地的从业者看到 L4 级技术从测试到商用的加速路径，做出行服务或智驾方案的团队值得关注其多城部署节奏。

原文

16:41

marktechpost@Asif Razzaq

83°

NVIDIA 发布了 Cosmos 3，这是一款开源的“全模态世界模型”，采用双塔混合 Transformer 架构，将自回归 VLM 推理器与扩散生成器结合。该模型能够统一物理推理、世界生成和动作生成，为物理 AI 提供基础能力。Cosmos 3 旨在让机器人、自动驾驶等系统更好地理解物理世界并生成合理动作。其开源特性有望加速物理 AI 领域的研究与应用开发。

AI模型 NVIDIA Cosmos 3 物理 AI 世界模型开源/仓库

推荐理由：NVIDIA 把物理推理和世界生成塞进一个开源模型，做机器人或自动驾驶的团队可以直接拿来用，省去从头训练物理世界模型的成本。

原文

14:48

Pandaily@contact@pandaily.com (Pandaily)

精选

中国开源世界模型 Boundless 在全球排行榜上超越 Google、NVIDIA 等巨头的产品，成为第一名。世界模型是能理解和模拟物理现实的 AI 系统，对机器人、自动驾驶等领域至关重要。Boundless 的开源特性降低了研究门槛，让更多团队能参与开发。这一突破显示中国在 AI 基础模型领域的竞争力正在增强。

AI模型世界模型开源/仓库物理模拟中国AI Boundless

推荐理由：世界模型是 AI 的下一个前沿，做机器人或自动驾驶的团队可以直接用 Boundless 开源代码加速研发，值得关注。

原文

6月1日

21:50

Decoder@Maximilian Schreiner

88°

Nvidia 在 GTC Taipei 上推出了一系列面向机器人、自动驾驶和视频系统的模型。核心产品包括新的世界模型 Cosmos 3、大幅升级的驾驶模型 Alpamayo 2 Super，以及一个开源的人形机器人参考平台。这些发布标志着 Nvidia 在物理 AI 领域的重大投入，旨在为机器人提供更强大的感知、规划和交互能力。Cosmos 3 能够生成更逼真的虚拟环境，Alpamayo 2 Super 提升了自动驾驶的决策精度，而开源平台则降低了人形机器人研发的门槛。

AI产品 Nvidia 物理 AI 世界模型自动驾驶人形机器人

推荐理由：Nvidia 一口气推出世界模型、驾驶模型和开源人形机器人平台，做机器人、自动驾驶和物理 AI 的开发者可以直接关注这些新工具，看看能否加速自己的项目。

原文

5月30日

23:18

23:18IT之家（博客/媒体）

精选72°

智元机器人自研的世界模型 Genie Envisioner-Sim 2.0（GE 2.0）在具身领域热门榜单 WorldArena Track1 中登顶，该赛道评测世界模型的感知与动作响应能力。GE 2.0 仅用 20 亿参数，就超越了英伟达、微软等团队的超大参数模型，验证了轻量化模型在人形机器人应用中的适配性。该模型首次全面覆盖长时序生成、多视角生成、本体状态生成、近实时推理及奖励判别等核心环节，在长时序推理中能稳定生成 40-50 秒高质量视频，且与真实世界保持强相关性。GE 2.0 还具备奖励模型机制，可自动筛选高质量数据回流给策略模型，助力多项任务性能提升。

AI模型世界模型具身智能智元 GE 2.0 轻量化模型

推荐理由：智元用 2B 参数模型在具身智能世界模型赛道击败英伟达等巨头，做机器人或具身智能的开发者值得关注——轻量化方案可能改写行业路线。

原文

5月29日

16:39

pandaily@contact@pandaily.com (Pandaily)

精选

X-Square Robot 推出了 WALL-WM，这是全球首个事件级预测的具身 AI 世界模型。与传统逐帧预测不同，WALL-WM 转向语义事件理解，让机器人能够理解任务目标而非记忆像素序列。该模型预计于 2026 年 5 月正式发布。这一突破意味着机器人可以更高效地规划动作，减少对大量训练数据的依赖，推动具身智能从感知走向认知。

AI模型具身智能世界模型事件预测 X-Square Robot WALL-WM

推荐理由：做机器人或具身智能的团队终于有了能理解任务目标的模型——WALL-WM 从像素预测升级到事件理解，直接降低训练成本，做自主导航或操作任务的开发者值得关注。

原文

5月27日

11:33

11:33IT之家（博客/媒体）

精选

蔚来宣布ES9行政旗舰SUV将首发世界模型全新版本，该版本采用国内首个直接操作方向盘与踏板的智能辅助驾驶系统，省去轨迹输出步骤，提升控车精准度。同时，它引入行业首个完整“世界模型+监督微调+闭环强化学习”三层训练框架，并成为首个车企自研可识别天空路牌的智能辅助驾驶系统。2026年1月，基于该架构的版本将全量推送至Banyan、Cedar、Cedar S系统的数十万辆车，6月先行更新。更新后城区领航辅助使用里程和时长环比分别提升92%和116%。

AI产品蔚来世界模型智能辅助驾驶端到端控制闭环强化学习

推荐理由：蔚来这次把端到端控制直接做到方向盘和踏板上，省掉轨迹翻译环节，开智能驾驶的体验会更丝滑。做自动驾驶或关注车企技术路线的开发者值得点开，看看三层训练框架怎么让模型既拟人又合规。

原文

5月26日

11:34

11:34IT之家（博客/媒体）

76°

小米汽车发布了全新的世界模型框架 Xiaomi Auto World Model，首次将三维重建与视频生成深度耦合，打破了行业长期将两者独立的技术路线。该框架通过重建提供几何锚点、生成填补未观测场景，实现了高稳定性、高一致性和高真实性，在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA。目前该模型已在小米汽车的合成数据生成、仿真测试和智能座舱辅助驾驶学堂三大场景落地，交付了超过 10 万 clips 高质量合成数据。这一技术路径有望推动辅助驾驶从“场景感知”向“认知推演”的高阶形态跃迁。

AI产品世界模型自动驾驶三维重建视频生成小米汽车

推荐理由：小米汽车把世界模型的两条路线拧成一股绳，解决了重建缺想象、生成易漂移的行业难题。做自动驾驶感知或仿真的团队，建议看看他们的论文和技术主页，或许能启发新的技术路径。

原文

5月20日

02:54

02:54IT之家（博客/媒体）

谷歌在 2026 I/O 大会上宣布，将通用世界模型 Project Genie 与街景服务结合，基于真实街景图像生成可互动、可探索的 3D 虚拟世界。用户可指定地点、风格（如“石器时代”）和角色，系统据此创建沉浸式环境。该能力目前仅支持美国地点，仍为实验性原型，主要用于 AI 智能体和机器人训练。谷歌计划未来扩展至更多地区，但未给出时间表。

AI产品谷歌 Genie 世界模型街景 AI 训练

推荐理由：Genie 街景版让 AI 训练和虚拟内容创作有了真实世界基础，做机器人导航或游戏场景生成的团队可以直接用这个原型来测试想法。

原文

5月14日

11:23

11:23IT之家（博客/媒体）

小米发布并开源了 Xiaomi OneVL，一个一步式潜空间语言视觉推理框架。雷军称，该模型在业内率先通过潜空间推理将 VLA（视觉语言动作模型）和世界模型统一到同一框架中。在推理和规划等主流基准上，Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT，速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源，邀请全球开发者探索自动驾驶大模型的可能性。

AI模型自动驾驶 Xiaomi OneVL VLA 世界模型潜空间推理

推荐理由：小米把 VLA 和世界模型统一到一套框架，解决了自动驾驶多模型协同的痛点，做自动驾驶或具身智能的开发者可以直接用开源代码试试，性能还刷新了基准。

原文

5月13日

17:17

17:17IT之家（博客/媒体）

精选70°

小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架，首次将 VLA（视觉语言动作）与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限，同时提供语言和视觉双维度的可解释性。相比传统方法，OneVL 在精度上超越显式 CoT，在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。

AI模型自动驾驶 VLA 世界模型开源/仓库小米

推荐理由：自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法，做端到端驾驶或世界模型开发的团队可以直接拿来用。

原文