Google 推出的 Gemini Omni 是一款原生多模态视频理解与生成模型,能够基于视频输入生成文本、图像、音频等多种内容。近期,该模型向 Google AI 订阅用户开放,并展示了多项创新功能。用户可利用 Gemini Omni 进行视频编辑,例如将1896年的火车视频转换为现代子弹头列车场景,或通过5个Prompt方法控制视频分镜,实现类似视频导演的效果。此外,Gemini Omni 还能创建个人数字分身,用户用自己的声音和形象生成视频,拓展了内容创作的可能性。评论认为,Gemini Omni 具备推理物理世界的能力,被视为世界模型的雏形,类似于视频版的“香蕉”(指Sora的一种比喻)。当前焦点在于,Gemini Omni 如何在原生多模态处理上与其他模型(如OpenAI的Sora)竞争,以及其“任意输入生成任意内容”的能力将如何改变视频生成领域。未来需观察其在实际应用中的表现,以及是否会出现新的伦理与版权问题。
№geminiomni·general
Gemini Omni
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-12
- 累计提及
- 79
§ 01综述
§ 02相关报道10 条在档
- 01Google Gemini Omni 可改变视频视角和光照,保持物理和角色一致性
- 02Gemini Omni 上线数字人功能,三步克隆你的外貌和声音
- 03Gemini Omni 单提示词实现屏幕到现实视频生成
- 04把 Gemini Omni 当视频导演:5 个 Prompt 方法控制分镜
- 05Gemini Omni 原生多模态视频编辑演示:从1896火车到子弹头
- 06Google 推出 Gemini Omni:从视频输入生成任意内容
- 07Google 推出 Gemini Omni:任意输入生成任意内容,从视频开始
- 08字节Seedance 2.1即将发布,质量提升20%
- 09Google 发布 Gemini Omni:原生多模态视频理解与生成模型
- 10Gemini Omni 推出:能推理物理世界的视频生成模型
§ 03邻近话题