geminiomni·general

Gemini Omni

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
79
§ 01综述

Google 推出的 Gemini Omni 是一款原生多模态视频理解与生成模型,能够基于视频输入生成文本、图像、音频等多种内容。近期,该模型向 Google AI 订阅用户开放,并展示了多项创新功能。用户可利用 Gemini Omni 进行视频编辑,例如将1896年的火车视频转换为现代子弹头列车场景,或通过5个Prompt方法控制视频分镜,实现类似视频导演的效果。此外,Gemini Omni 还能创建个人数字分身,用户用自己的声音和形象生成视频,拓展了内容创作的可能性。评论认为,Gemini Omni 具备推理物理世界的能力,被视为世界模型的雏形,类似于视频版的“香蕉”(指Sora的一种比喻)。当前焦点在于,Gemini Omni 如何在原生多模态处理上与其他模型(如OpenAI的Sora)竞争,以及其“任意输入生成任意内容”的能力将如何改变视频生成领域。未来需观察其在实际应用中的表现,以及是否会出现新的伦理与版权问题。

§ 02相关报道10 条在档
  1. 01
    Google Gemini Omni 可改变视频视角和光照,保持物理和角色一致性
    AI Will
  2. 02
    Gemini Omni 上线数字人功能,三步克隆你的外貌和声音
    berryxia
  3. 03
    Gemini Omni 单提示词实现屏幕到现实视频生成
    Google Gemini App
  4. 04
    把 Gemini Omni 当视频导演:5 个 Prompt 方法控制分镜
    岚叔
  5. 05
    Gemini Omni 原生多模态视频编辑演示:从1896火车到子弹头
    Ethan Mollick
  6. 06
    Google 推出 Gemini Omni:从视频输入生成任意内容
    AI Will
  7. 07
    Google 推出 Gemini Omni:任意输入生成任意内容,从视频开始
    AI Will
  8. 08
    字节Seedance 2.1即将发布,质量提升20%
    IT之家
  9. 09
    Google 发布 Gemini Omni:原生多模态视频理解与生成模型
    shao__meng
  10. 10
    Gemini Omni 推出:能推理物理世界的视频生成模型
    berryxia
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/Gemini%20Omni