Google 于 I/O 2025 正式推出 Gemini Omni,这是一个面向多模态交互的 AI 模型,能够接受视频、图像、音频等输入,并生成文本、图像、视频等内容。随后,Gemini Omni 向全球 Plus、Pro 和 Ultra 订阅用户开放,标志着 Google 在多模态 AI 领域迈出关键一步。
Gemini Omni 向全球 Plus/Pro/Ultra 订阅用户开放 (Gemini App),同时 Google 修复了 Ultra 用户的配额问题,使 Omni 生成量翻倍 (rohanpaul_ai),提升了用户可及性和体验。
开发者展示了 Omni 的创意应用,例如利用 5 个 Prompt 方法将 Omni 当作视频导演控制分镜 (岚叔),以及从 1896 年老火车视频到子弹头列车的原生多模态视频编辑演示 (Ethan Mollick),突出了其在视频内容生成和编辑上的潜力。
Google CEO Sundar Pichai 在 I/O 2025 上阐述了 Omni 的战略意义,将其与 Spark 智能体等工具并列,作为 AI 未来的核心组成部分 (The Rundown AI),同时 Google 还联合艺术家推出了 Pics、Flow Agent 等新工具 (Google AI),丰富了多模态生态。
当前焦点:Gemini Omni 作为“任意输入生成任意内容”的模型,其核心能力在于打破模态壁垒,实现视频到任意格式的转换。但用户也需关注其实际应用的边界,例如视频输入的实时性、生成结果的准确性和创意控制权。未来观察点包括:Omni 在视频剪辑、广告创意、教育等领域的落地案例,以及它能否在性能上超越字节 Seedance 2.1 等竞品(据报道质量提升 20% IT之家),并成为多模态 AI 的主导平台。