全部 AI 动态 · AI 热点

AITOP

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

12:07

AI Will@FinanceYF5

Google 展示了其 Gemini Omni 模型的新能力，允许用户通过自然语言指令改变视频中的摄像机角度、调整视角或修改光照效果，同时保持物理规律和角色一致性。演示中，用户输入“把场景改成沙漠（其他不变）”，视频即被重新渲染。这一技术突破了传统视频编辑的局限，为内容创作者提供了前所未有的灵活性和控制力。它标志着多模态 AI 在视频理解和生成方面的重要进展，有望简化影视制作、广告和社交媒体内容创作流程。

AI产品 Gemini Omni 视频编辑多模态AI 内容创作 Google

推荐理由：视频创作者和后期团队终于可以像改文字一样改视频了——Gemini Omni 让你一句话调整视角和光照，还保持物理和角色一致，做内容生产的建议点开看看怎么用。

原文

01:11

berryxia@berryxia

Google 的 Gemini Omni 正式推出数字人（Digital Avatar）功能，用户只需在 App 或网页端拍摄几张照片并录制几句语音，即可生成外貌和声音都高度仿真的数字分身。该分身可直接用于视频创作工具，让用户“自己”出现在视频中。所有生成视频均嵌入不可见的 SynthID 数字水印，便于验证来源，有效防范深度伪造风险。整个过程对普通用户只需几分钟，无需专业设备，对教育、营销和内容创作者是重大利好。

AI产品数字人 Gemini Omni 视频创作数字水印内容创作

推荐理由：做视频内容的人终于可以不用真人出镜了——Gemini Omni 的数字人功能让克隆自己变得像拍照一样简单，教育博主和营销团队建议立刻试试。

原文

00:13

Google Gemini App@GeminiApp

精选

Google宣布，所有由Gemini Omni生成的视频将自动包含不可感知的SynthID数字水印。用户可通过Gemini应用验证视频是否由该模型生成。此举旨在扩展内容透明度与验证工具，帮助用户识别网络内容的来源和编辑痕迹。博客文章进一步说明了相关技术和应用细节。

AI产品 Gemini Omni SynthID 数字水印内容验证透明度

推荐理由：Google给AI视频加隐形水印了

原文

5月30日

11:04

Google Gemini App@GeminiApp

Google 的 Gemini Omni 模型展示了从屏幕视频输入到现实物理模拟的端到端能力。用户只需一个提示词，模型就能理解视频内容，应用物理规则并生成无缝的新运动。该功能将视频理解与物理仿真结合，为创意内容生成和交互式应用开辟了新可能。目前已在 X 平台开放试用，用户可分享自己的实验案例。

AI产品 Gemini Omni 视频生成物理模拟 Google 创意工具

推荐理由：视频创作者和 AI 应用开发者可以直接用 Gemini Omni 把屏幕内容变成物理模拟视频，省去传统 3D 建模和动画流程，值得一试。

原文

03:00

Google Gemini App@GeminiApp

精选

Google 宣布 Gemini Omni 现已向 Google AI Plus、Pro 和 Ultra 所有订阅用户开放。用户可以通过 gemini.google 网页端或官方应用直接使用。此更新扩展了 Gemini Omni 的访问权限，覆盖更多付费用户群体。

AI产品 Gemini Omni Google AI AI产品订阅服务

推荐理由：谷歌把Omni开放给更多订阅用户了

原文

5月29日

03:03

Google Gemini App@GeminiApp

精选

Gemini App 宣布印度用户现在可以上传视频并使用 Gemini Omni 进行编辑和变换。该功能支持从相机胶卷或保存的文件中上传。Gemini Omni 被描述为在 Vibe 视频编辑方面超越一切。目前该更新是否会在印度以外地区推出尚未明确。

AI产品 Gemini App Gemini Omni Google 视频编辑

推荐理由：谷歌推出 Gemini Omni 视频编辑

原文

5月27日

08:20

岚叔@lufzzliz

精选

本文介绍了如何将 Gemini Omni 用作视频导演工具，核心思路是从描述画面升级为控制系统。Google AI 提供了 5 种 Prompt 方法：调用真实世界知识、控制文字渲染、像摄影师一样写镜头、局部迭代修改、动态修改动作。文章给出了具体的 Prompt 骨架和镜头词库，帮助用户像导演一样控制世界知识、主体动作、镜头语言、文字系统、时间节奏和迭代约束。这种方法让视频生成更精准、可迭代，适合内容创作者和视频制作者直接使用。

AI产品 Gemini Omni 视频生成 Prompt 工程导演控制内容创作

推荐理由：做视频生成的内容创作者终于不用靠堆砌形容词碰运气了——这套导演式 Prompt 方法让你像控制分镜一样控制输出，建议直接套用文中的镜头词库和骨架试试。

原文

5月23日

01:48

Ethan Mollick@emollick

76°

Ethan Mollick 指出，Gemini Omni 与其他视频 AI 的关键区别在于其完全多模态能力，可以原生编辑视频。他展示了将1896年经典电影《火车进站》中的火车改为子弹头列车、乐高风格，并添加时间旅行者、蜈蚣和布偶等元素。视频中甚至保留了反射效果，体现了 Gemini Omni 对视频内容的深度理解和编辑能力。这一演示凸显了 Gemini Omni 在视频生成和编辑领域的独特优势。

AI产品 Gemini Omni 多模态视频编辑 AI 演示原生编辑

推荐理由：Gemini Omni 的原生视频编辑能力让创作者可以直接在视频中做复杂修改，做视频内容或 AI 应用的开发者值得关注，看看它如何理解并重构视频场景。

原文

5月22日

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

5月21日

15:20

AI Will@FinanceYF5

Google 发布了全新模型 Gemini Omni，能够根据任意输入（如文本、图像、音频）生成任意输出内容，首先支持视频生成。该功能将集成到 Gemini App、Flow 和 YouTube 中，API 支持即将推出。Omni 被视为“Nano Banana”的视频版，标志着多模态生成能力的重大突破。这一进展将极大简化内容创作流程，尤其对视频创作者和开发者意义重大。

AI产品 Gemini Omni 多模态生成视频生成 Google API

推荐理由：多模态生成从文本扩展到视频，做内容创作或视频开发的团队可以直接在 Gemini App 和 YouTube 中体验，建议第一时间试用。

原文

08:00

Google Gemini App@GeminiApp

Google 的 Gemini Omni 功能允许用户创建个人数字分身（avatar），该分身能复制用户的声音和形象。用户只需一次创建，之后即可反复使用该分身生成视频，无需每次重新上传照片或录制音频。这一功能极大简化了视频制作流程，尤其适合需要频繁出镜的内容创作者、教育工作者或企业培训场景。目前该功能已通过 Gemini App 推出，引发广泛关注。

AI产品 Gemini Omni 数字分身视频生成 AI 语音克隆内容创作

推荐理由：做视频内容的人终于不用每次重新录制了——Gemini Omni 的数字分身让你一次创建、反复使用，省去大量重复工作，建议内容创作者和培训团队试试。

原文

08:00

小互@imxiaohu

一条推文将 Gemini Omni 形容为“视频版的香蕉”，暗示其具备强大的视频编辑与理解能力。作者认为它远不止视频编辑，而是世界模型的雏形，代表了通用 AGI 的初始形态。该推文引发了对 Gemini Omni 潜力的讨论，认为它可能推动 AI 从语言模型向多模态世界理解迈进。

AI产品 Gemini Omni 世界模型 AGI 多模态视频理解

推荐理由：如果你关注多模态 AI 和 AGI 进展，这条推文点出了 Gemini Omni 可能超越视频编辑、成为世界模型雏形的关键判断，值得一看。

原文

08:00

Google Gemini App@GeminiApp

Google 宣布 Gemini Omni 即日起向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放，可在 gemini.google 网站和移动应用中使用。该功能支持用户创建个性化头像，并鼓励在评论区分享作品。此举标志着 Google 在 AI 多模态交互上的进一步扩展，为付费用户提供了更丰富的创作工具。

AI产品 Gemini Omni Google AI 头像生成多模态订阅服务

推荐理由：Gemini Omni 让 Google AI 订阅用户有了新的创作玩法，做内容或社交媒体的团队可以试试用它生成头像，提升互动趣味。

原文

08:00

The Rundown AI@therundownai

93°

在 Google I/O 大会上，Demis Hassabis 正式介绍了 Gemini Omni，一个号称“能从任何输入创建任何输出”的新型 AI 模型。该模型支持文本、图像、音频、视频等多种模态的输入与生成，旨在实现真正的多模态理解和创作。这一发布标志着 Google 在通用 AI 能力上的重要一步，可能重塑内容创作、人机交互等领域的范式。目前具体技术细节和上线时间尚未公布，但已引发行业广泛关注。

AI模型 Gemini Omni 多模态模型 Google I/O AI 创作人机交互

推荐理由：Gemini Omni 把多模态 AI 的边界推到了“任意输入→任意输出”，做内容创作、产品设计或人机交互的团队值得关注——这可能是下一代 AI 应用的基础设施。

原文

08:00

Sundar Pichai@sundarpichai

83°

Google CEO Sundar Pichai 宣布推出 Gemini Omni，这是一个不仅能生成逼真场景，还能推理下一步该发生什么的视频生成模型。它结合了物理直觉与 Gemini 对历史、科学和文化背景的知识，使生成的视频更具逻辑性和上下文相关性。该功能今日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户，通过 Gemini 应用、Google Flow 以及 YouTube Shorts 逐步开放。这一进展标志着 AI 视频生成从“看起来真实”向“理解并预测动态”迈出了重要一步。

AI产品 Gemini Omni 视频生成物理推理文化理解 Google AI

推荐理由：做视频生成或 AI 内容创作的团队，终于有了一个能理解物理规律和文化背景的模型——生成的视频不再只是视觉逼真，而是逻辑连贯。建议订阅 Google AI 的用户立即体验。

原文

08:00

歸藏(guizang.ai)@op7418

AI产品谷歌 Gemini Omni 视频模型多模态实时交互

推荐理由：做视频分析和多模态应用的开发者终于可以上手测试了——Gemini Omni 的实时视频理解能力可能改变视频交互方式，建议有相关需求的团队尽早体验。

原文

5月20日

09:52

shao__meng@shao__meng

83°

Google 在 I/O 大会上发布了 Gemini Omni，这是一个原生多模态的「理解+生成」模型，主攻视频领域。与 Veo、Sora 等传统视频生成模型不同，Omni 从底层设计为多模态，支持任意组合输入（图、文、视频、音频）产出或编辑视频。其核心差异化能力包括对话式视频编辑（多轮修改保持一致性）、结合世界知识与物理直觉的生成，以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型，标志着视频生成进入新阶段。

AI产品 Gemini Omni 多模态模型视频生成对话式编辑 Google I/O

推荐理由：做视频创作或 AI 内容生成的团队，终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性，不用每次重写 prompt，建议直接看官方对比。

原文

08:18

berryxia@berryxia

76°

Google 发布 Gemini Omni，一种不仅能生成逼真视频，还能基于物理直觉和知识推理场景后续发展的 AI 模型。它将物理直观与历史、科学、文化背景知识结合，使生成内容更符合现实逻辑。该模型即日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出，首批支持视频输出。这一进展标志着视频生成从单纯视觉真实迈向因果推理的新阶段。

AI模型 Gemini Omni 视频生成物理推理 Google AI 多模态模型

推荐理由：做视频生成或物理模拟的开发者值得关注——Gemini Omni 把常识推理带进视频生成，让 AI 不再只是“画得好”，而是“想得对”。

原文

06:03

rohanpaul_ai@rohanpaul_ai

83°

Google 推出 Gemini Omni，一个能从视频、图像、音频、文本和草图等多种输入生成并编辑视频的 AI 模型。用户只需用自然语言描述，即可添加角色、替换物体、改变动作、调整风格、同步声音或移动镜头，且每次编辑后场景保持稳定。Omni 具备更强的世界理解能力，能更真实地模拟重力、流体运动、动能和物理交互。该模型将集成到 Gemini 应用、Google Flow 和 YouTube Shorts 中。Google 还为 Omni 输出添加了 SynthID 水印和 C2PA 内容凭证，以标识 AI 生成或编辑的媒体。

AI产品 Gemini Omni 视频生成视频编辑自然语言交互 AI 水印

推荐理由：视频创作者和内容团队终于有了一个能像导演一样反复指导修改的 AI 工具，而非一次性的 prompt 生成。做短视频、广告或影视后期的人，可以直接用自然语言调整画面细节，值得关注。

原文

04:16

Demis Hassabis@demishassabis

精选

Demis Hassabis 宣布 Gemini Omni 在多模态理解与编辑方面取得重大进展。该模型能处理照片、视频和音频输入，并构建全新场景。初期从视频开始，未来将支持任意输入与输出。用户可上传自己的视频并在其上迭代想法。

AI模型 Gemini Omni 多模态视频编辑场景生成

推荐理由：Gemini Omni能处理视频/音频/图片并构建新场景

原文

03:17

Google AI@GoogleAI

精选

GoogleAI 推出 Gemini Omni 模型，支持从文本、图像、音频等多种输入类型生成内容，初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标，但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义，引发社区关注。

AI模型 Gemini Omni GoogleAI 多模态视频生成

推荐理由：谷歌的万能创作模型来了

原文

03:07

Google Gemini App@GeminiApp

精选

Google 即日起向 Google AI Plus、Pro 和 Ultra 订阅用户全球推送 Gemini Omni，支持在 gemini.google 网站和移动应用中使用。未来将陆续支持图像和音频等更多输出格式。该模型可同时处理文本、图像、音频等多模态输入。目前所有 Plus、Pro 和 Ultra 用户均可体验。

AI产品 Gemini Omni Google 多模态

推荐理由：试试谷歌新多模态模型

原文

03:07

Google Gemini App@GeminiApp

精选

Google在Google IO上发布新模型Gemini Omni，可接受图像、视频和文本作为输入，生成高质量视频。该模型利用Gemini的真实世界知识，使视频内容更加准确和连贯。这是多模态视频生成的重要进展，支持从多种混合输入直接创建视频内容。

AI模型 Gemini Omni Google 视频生成多模态

推荐理由：Google发了能多模态生视频的模型

原文

01:17

Google DeepMind@GoogleDeepMind

Google DeepMind推出Gemini Omni，这是其首个可从任何内容生成任何内容的模型，首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统，在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。

AI模型 Gemini Omni Google DeepMind 多模态视频生成

推荐理由：谷歌发布能生成视频的Gemini Omni

原文

5月19日

23:20

TestingCatalog@testingcatalog

Google 在 I/O 大会上宣布，其自动化平台 Google Flow 将集成 Gemini Omni 模型，并推出全新的 Flow Agent 体验。用户现在可以通过自然语言与 Agent 交互，完成头脑风暴、生成图像变体、重命名资源或回答关于 Flow 的问题。此外，Flow 还新增了可自定义的风格工具，提升了创作灵活性。这一更新将显著降低自动化工作流的门槛，让非技术用户也能轻松使用 AI 驱动的任务编排。

AI产品 Google Flow Gemini Omni Flow Agent 自动化 AI 助手

推荐理由：Google Flow 的 Agent 化让非开发者也能用自然语言驱动自动化流程，做创意或运营的团队可以直接上手试试，省去手动配置的麻烦。

原文

08:47

TestingCatalog@testingcatalog

76°

Google I/O 大会上，展示了由即将推出的 Gemini Omni 模型生成的 AI 视频。两段 8 秒高清样本中，一段是 Sandar 和 Demis 的视频，可能通过 Omni 的图像到视频风格编辑生成；另一段是 Logan 的“肖像”头像和 Omni 视频。这标志着 Gemini 新模型即将发布，引发业界关注。

AI产品 Gemini Omni AI 视频生成 Google I/O 图像到视频肖像头像

推荐理由：视频生成技术又进一步，做 AI 内容创作的团队可以关注 Gemini Omni 的风格编辑能力，直接看样本感受效果。

原文