№geminiomni·general

Gemini Omni

别名

首次出现: 2026-05-22
最近出现: 2026-06-12
累计提及: 79

§ 01综述

Google 推出的 Gemini Omni 是一款原生多模态视频理解与生成模型，能够基于视频输入生成文本、图像、音频等多种内容。近期，该模型向 Google AI 订阅用户开放，并展示了多项创新功能。用户可利用 Gemini Omni 进行视频编辑，例如将1896年的火车视频转换为现代子弹头列车场景，或通过5个Prompt方法控制视频分镜，实现类似视频导演的效果。此外，Gemini Omni 还能创建个人数字分身，用户用自己的声音和形象生成视频，拓展了内容创作的可能性。评论认为，Gemini Omni 具备推理物理世界的能力，被视为世界模型的雏形，类似于视频版的“香蕉”（指Sora的一种比喻）。当前焦点在于，Gemini Omni 如何在原生多模态处理上与其他模型（如OpenAI的Sora）竞争，以及其“任意输入生成任意内容”的能力将如何改变视频生成领域。未来需观察其在实际应用中的表现，以及是否会出现新的伦理与版权问题。

§ 02相关报道10 条在档

§ 03邻近话题