全部 AI 动态 · AI 热点

5月27日

08:20

岚叔@lufzzliz

精选

本文介绍了如何将 Gemini Omni 用作视频导演工具，核心思路是从描述画面升级为控制系统。Google AI 提供了 5 种 Prompt 方法：调用真实世界知识、控制文字渲染、像摄影师一样写镜头、局部迭代修改、动态修改动作。文章给出了具体的 Prompt 骨架和镜头词库，帮助用户像导演一样控制世界知识、主体动作、镜头语言、文字系统、时间节奏和迭代约束。这种方法让视频生成更精准、可迭代，适合内容创作者和视频制作者直接使用。

AI产品 Gemini Omni 视频生成 Prompt 工程导演控制内容创作

推荐理由：做视频生成的内容创作者终于不用靠堆砌形容词碰运气了——这套导演式 Prompt 方法让你像控制分镜一样控制输出，建议直接套用文中的镜头词库和骨架试试。

原文

5月26日

22:56

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号发布了一段由 Julia Turc 制作的关于“世界模型”的讲解视频。视频澄清了世界模型与视频生成的区别，探讨了其超越“AI 垃圾”的潜力，并幽默回应了 Yann LeCun 的争议。该视频旨在帮助观众理解这一当前 AI 领域最热门但最模糊的概念之一。

AI模型世界模型 NVIDIA 视频生成 AI 科普 Yann LeCun

推荐理由：世界模型是当前 AI 最模糊的概念之一，这个视频帮你理清它与视频生成的区别，想搞懂 AI 前沿方向的建议点开。

原文

5月24日

16:36

阿里云 Alibaba Cloud@alibaba_cloud

5月26日，Picsart视频产品主管Narek Hayrapetyan将在新加坡金沙会展中心分享多模态AI如何彻底改变视觉创作。活动由阿里云主办，聚焦AI在图像和视频生成中的实际应用。参与者可现场了解多模态模型如何提升创作效率。

行业多模态视频生成大模型阿里云

推荐理由：听Picsart高管讲多模态创作

原文

5月23日

04:21

NVIDIA AI@NVIDIAAI

精选

NVIDIA 推出 LongLive-2.0，支持生成 720p 分辨率的长视频。该模型在多镜头序列中保持主体和背景一致性，并能在视频分块边界处切换提示词。相比前代，LongLive-2.0 在长视频连贯性和用户控制性上有所提升。

AI模型 LongLive-2.0 NVIDIA 视频生成长视频

推荐理由：NVIDIA 新模型能生成长视频还保持一致性

原文

5月22日

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

02:34

Runway ML@runwayml

精选

Runway推出Aleph 2.0版本，新增单帧编辑功能。用户可以在视频中编辑某一帧，预览更改效果，然后Aleph 2.0自动将该编辑传播到整个视频。该功能已在新的Edit Studio网页版上线。

AI产品 Runway Aleph 视频编辑帧编辑视频生成

推荐理由：Runway的Aleph 2.0能让你改一帧全片跟着变

原文

5月21日

15:20

AI Will@FinanceYF5

Google 发布了全新模型 Gemini Omni，能够根据任意输入（如文本、图像、音频）生成任意输出内容，首先支持视频生成。该功能将集成到 Gemini App、Flow 和 YouTube 中，API 支持即将推出。Omni 被视为“Nano Banana”的视频版，标志着多模态生成能力的重大突破。这一进展将极大简化内容创作流程，尤其对视频创作者和开发者意义重大。

AI产品 Gemini Omni 多模态生成视频生成 Google API

推荐理由：多模态生成从文本扩展到视频，做内容创作或视频开发的团队可以直接在 Gemini App 和 YouTube 中体验，建议第一时间试用。

原文

11:41

快手可灵 Kling@Kling_AI

Kling AI 在戛纳电影节上展示了其参与的全 AI 生成电影项目 RAPHAEL。该片由 Mateo AI Studio 与韩国 MBC C&I 的 AI 内容实验室合作开发，计划于 2026 年院线上映。项目全程使用 Kling AI 的视频模型来生成独特视觉效果，旨在证明纯 AI 电影制作的工业可行性，并推动 AI 原生影院电影的新趋势。

AI产品 Kling AI AI 电影视频生成戛纳影视制作

推荐理由：这是 AI 视频生成从短片走向长片院线电影的关键一步，做影视制作、AI 内容创作的团队值得关注——它展示了 AI 工具在工业级项目中的实际落地能力。

原文

08:01

Andrew Ng@AndrewYNg

Andrew Ng 宣布与 Google Cloud 合作推出新课程，教授如何构建能生成图像和视频的 AI 智能体。课程重点在于让智能体自我评估输出并迭代改进质量，涵盖三种评估技术：图像-文本相似度评分、LLM 裁判按品牌一致性等自定义标准评分、以及结构化评分表。学员将学习图像和视频提示工程，构建将品牌指南转化为 UI 模型的图像智能体，以及规划多场景解说视频并同步音频的视频智能体。该课程面向希望探索 AI 智能体在视觉内容生成领域应用的开发者。

AI产品智能体图像生成视频生成评估技术 Google Cloud

推荐理由：Andrew Ng 的课程一向实用，这次聚焦图像/视频生成智能体这个少有人深入的方向，做多模态或内容生成的开发者可以直接学起来，掌握让智能体自我迭代的关键技巧。

原文

08:00

Google Gemini App@GeminiApp

Google 的 Gemini Omni 功能允许用户创建个人数字分身（avatar），该分身能复制用户的声音和形象。用户只需一次创建，之后即可反复使用该分身生成视频，无需每次重新上传照片或录制音频。这一功能极大简化了视频制作流程，尤其适合需要频繁出镜的内容创作者、教育工作者或企业培训场景。目前该功能已通过 Gemini App 推出，引发广泛关注。

AI产品 Gemini Omni 数字分身视频生成 AI 语音克隆内容创作

推荐理由：做视频内容的人终于不用每次重新录制了——Gemini Omni 的数字分身让你一次创建、反复使用，省去大量重复工作，建议内容创作者和培训团队试试。

原文

08:00

HeyGen@HeyGen_Official

83°

HeyGen 发布了其最高质量的 AI 虚拟形象模型 Avatar V API，定价为每秒 0.05 美元。该模型在跨场景说话头像生成任务中，与 Veo 3.1、Kling O3 Pro、OmniHuman 1.5 和 Seedance 2.0 进行了基准测试，并在所有类别中胜出。HeyGen 同时发布了研究论文和 API 接口，供开发者直接使用。这标志着 AI 虚拟形象生成在质量和成本上迈出了重要一步，尤其适合需要高保真数字人视频的应用场景。

AI产品虚拟形象 API 数字人视频生成 HeyGen

推荐理由：HeyGen 的 Avatar V 在跨场景说话头像生成上全面领先竞品，做数字人、虚拟主播或视频生成的开发者可以直接用 API 接入，成本可控且效果顶级。

原文

08:00

Sundar Pichai@sundarpichai

83°

Google CEO Sundar Pichai 宣布推出 Gemini Omni，这是一个不仅能生成逼真场景，还能推理下一步该发生什么的视频生成模型。它结合了物理直觉与 Gemini 对历史、科学和文化背景的知识，使生成的视频更具逻辑性和上下文相关性。该功能今日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户，通过 Gemini 应用、Google Flow 以及 YouTube Shorts 逐步开放。这一进展标志着 AI 视频生成从“看起来真实”向“理解并预测动态”迈出了重要一步。

AI产品 Gemini Omni 视频生成物理推理文化理解 Google AI

推荐理由：做视频生成或 AI 内容创作的团队，终于有了一个能理解物理规律和文化背景的模型——生成的视频不再只是视觉逼真，而是逻辑连贯。建议订阅 Google AI 的用户立即体验。

原文

07:59

歸藏(guizang.ai)@op7418

藏师傅已完成一个通过前端生成讲解视频的Skill，但希望优化效果、提高工程化并降低Token用量。他让Claude Code分析了一个40秒视频案例，发现总消耗145万Token，其中输入占比极高，输出仅占0.7%。视频组合和Skills消耗最大，但使用Claude Code时有92%缓存，实际成本可控。该方案结合了PPT Skill（美学、版式、动效）、HyperFrames（时间线、渲染、字幕）、Listenhub Skill（配音）和即梦CLI（演示和B-roll），展示了多工具协同的AI视频生成流程。

AI产品 Claude Code 视频生成 Token优化 Skill 工程化

推荐理由：做AI视频生成或工程化优化的开发者，可以看看藏师傅如何用Claude Code分析Token消耗并针对性优化，直接复用他的缓存策略能省不少成本。

原文

5月20日

09:52

shao__meng@shao__meng

83°

Google 在 I/O 大会上发布了 Gemini Omni，这是一个原生多模态的「理解+生成」模型，主攻视频领域。与 Veo、Sora 等传统视频生成模型不同，Omni 从底层设计为多模态，支持任意组合输入（图、文、视频、音频）产出或编辑视频。其核心差异化能力包括对话式视频编辑（多轮修改保持一致性）、结合世界知识与物理直觉的生成，以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型，标志着视频生成进入新阶段。

AI产品 Gemini Omni 多模态模型视频生成对话式编辑 Google I/O

推荐理由：做视频创作或 AI 内容生成的团队，终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性，不用每次重写 prompt，建议直接看官方对比。

原文

08:18

berryxia@berryxia

76°

Google 发布 Gemini Omni，一种不仅能生成逼真视频，还能基于物理直觉和知识推理场景后续发展的 AI 模型。它将物理直观与历史、科学、文化背景知识结合，使生成内容更符合现实逻辑。该模型即日起面向全球 Google AI Plus、Pro 和 Ultra 订阅用户推出，首批支持视频输出。这一进展标志着视频生成从单纯视觉真实迈向因果推理的新阶段。

AI模型 Gemini Omni 视频生成物理推理 Google AI 多模态模型

推荐理由：做视频生成或物理模拟的开发者值得关注——Gemini Omni 把常识推理带进视频生成，让 AI 不再只是“画得好”，而是“想得对”。

原文

06:03

rohanpaul_ai@rohanpaul_ai

83°

Google 推出 Gemini Omni，一个能从视频、图像、音频、文本和草图等多种输入生成并编辑视频的 AI 模型。用户只需用自然语言描述，即可添加角色、替换物体、改变动作、调整风格、同步声音或移动镜头，且每次编辑后场景保持稳定。Omni 具备更强的世界理解能力，能更真实地模拟重力、流体运动、动能和物理交互。该模型将集成到 Gemini 应用、Google Flow 和 YouTube Shorts 中。Google 还为 Omni 输出添加了 SynthID 水印和 C2PA 内容凭证，以标识 AI 生成或编辑的媒体。

AI产品 Gemini Omni 视频生成视频编辑自然语言交互 AI 水印

推荐理由：视频创作者和内容团队终于有了一个能像导演一样反复指导修改的 AI 工具，而非一次性的 prompt 生成。做短视频、广告或影视后期的人，可以直接用自然语言调整画面细节，值得关注。

原文

03:31

NVIDIA AI@NVIDIAAI

76°

NVIDIA 研究团队开源了 SANA-WM，一个 2.6B 参数的世界模型，能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制，为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛，对内容创作、游戏和仿真领域有重要意义。

AI模型世界模型视频生成相机控制开源/仓库 NVIDIA

推荐理由：NVIDIA 把世界模型的门槛拉到单卡可跑，做视频生成或 3D 仿真的开发者可以直接拿来用，60 秒可控视频不再是云端专属。

原文

03:17

Google AI@GoogleAI

精选

GoogleAI 推出 Gemini Omni 模型，支持从文本、图像、音频等多种输入类型生成内容，初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标，但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义，引发社区关注。

AI模型 Gemini Omni GoogleAI 多模态视频生成

推荐理由：谷歌的万能创作模型来了

原文

03:07

Google Gemini App@GeminiApp

精选

Google在Google IO上发布新模型Gemini Omni，可接受图像、视频和文本作为输入，生成高质量视频。该模型利用Gemini的真实世界知识，使视频内容更加准确和连贯。这是多模态视频生成的重要进展，支持从多种混合输入直接创建视频内容。

AI模型 Gemini Omni Google 视频生成多模态

推荐理由：Google发了能多模态生视频的模型

原文

01:23

Logan Kilpatrick@OfficialLoganK

精选

Google 发布新模型 Gemini Omni，支持从文本、图像等任意输入生成视频，类似 Nano Banana 能力。当前可在 Gemini App、Flow 和 YouTube 中使用。API 支持即将推出。

AI模型 Gemini Omni Google 视频生成

推荐理由：Gemini能直接生成视频了

原文

01:17

Google DeepMind@GoogleDeepMind

Google DeepMind推出Gemini Omni，这是其首个可从任何内容生成任何内容的模型，首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统，在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。

AI模型 Gemini Omni Google DeepMind 多模态视频生成

推荐理由：谷歌发布能生成视频的Gemini Omni

原文

00:47

berryxia@berryxia

88°

NVIDIA研究员Yukang Chen开源了LongLive 2.0，这是全球首个端到端支持4-bit量化的超长视频生成基础设施，覆盖训练和推理全流程。核心技术包括FP4量化和并行加速，在5B模型上实现45.7 FPS的实时生成速度。该工具支持真实视频训练、few-step蒸馏、多shot训练/推理、序列并行、NVFP4 KV cache和异步VAE解码部署。此前长视频生成面临速度慢或长度受限的问题，LongLive 2.0将4-bit长视频实时生成能力推向开源社区。

AI产品 NVIDIA LongLive 2.0 4-bit量化视频生成开源/仓库

推荐理由：做视频生成或AI基础设施的开发者终于有了一个能跑长视频的4-bit开源方案，NVIDIA把训练到推理的整套加速打法打包好了，建议直接试代码。

原文

5月19日

23:48

AK@_akhaliq

精选

Nvidia 推出 LongLive-2.0，基于 NVFP4 并行架构，专门用于长视频生成。该基础设施旨在解决长时序视频生成的计算瓶颈，提升生成效率。与以往方案相比，LongLive-2.0 能够处理更长时间的视频序列。

AI产品 Nvidia LongLive-2.0 NVFP4 视频生成并行计算

推荐理由：Nvidia 开源长视频生成框架

原文

23:38

TestingCatalog@testingcatalog

Google 在 I/O 大会上宣布 Google Flow 新增角色和场景功能，用户可以创建可复用的角色用于视频生成，并支持多种角色语音。此外，Google Flow 的 Android 应用已上架 Google Play。这些更新使视频创作更灵活高效，适合内容创作者和开发者测试使用。

AI产品 Google Flow 视频生成角色场景 Android

推荐理由：做视频创作的团队终于有了可复用的角色和场景功能，还能选不同语音，Android 用户可以直接下载体验，建议试试。

原文

14:21

阿里云 Alibaba Cloud@alibaba_cloud

阿里云宣布成为2026年摩纳哥AI电影节的冠名赞助商，该电影节是电影与人工智能交汇的盛会。作为云计算和AI基础设施的全球领导者，阿里云将为创作者、工作室和创新者提供训练大模型、生成沉浸式视频内容以及高性能渲染等工具。电影节将于2026年6月9日至10日在摩纳哥蒙特卡洛举行，旨在支持新一代AI驱动的创意制作。此举标志着阿里云在AI创意领域的重要布局，推动技术与艺术的融合。

行业阿里云 AI电影节云计算视频生成创意工具

推荐理由：阿里云冠名AI电影节，说明云厂商正在认真押注AI创意工具赛道——做视频生成、影视渲染的团队可以关注其提供的底层基础设施，看看能否降低自己的制作成本。

原文

12:35

OpenRouter@OpenRouterAI

OpenRouter 发布了新的 Playground 侧边栏，能够根据用户尝试的模型类型自动调整界面，提供更直观的操作体验。该功能目前支持 @Kling_ai 的 Video v3 模型，用户可以直接在侧边栏中预览视频生成效果。这一更新降低了多模型切换时的学习成本，让开发者或创作者能更快上手不同模型。目前该功能已在 OpenRouter 平台上可用。

AI产品 OpenRouter Playground 模型切换视频生成 Kling_ai

推荐理由：OpenRouter 这个侧边栏解决了多模型切换时界面不统一的问题，做 AI 应用开发或内容创作的团队可以直接用，省去反复适应不同模型 UI 的时间。

原文

12:10

OpenRouter@OpenRouterAI

xAI 的 Grok 创意套件新增三个模型，已在 OpenRouter 平台上线。Grok Imagine Image Quality 支持照片级图像生成与编辑；Grok Imagine Video 可从文本、图像或参考素材生成短视频；Grok Voice TTS 1.0 提供 5 种语音、覆盖 20 多种语言。这些模型扩展了 Grok 在图像、视频和语音合成方面的能力，为开发者和创作者提供了更多选择。

AI产品 Grok 图像生成视频生成语音合成 OpenRouter

推荐理由：xAI 一口气推出图像、视频、语音三款模型，做内容创作或 AI 应用的开发者可以直接在 OpenRouter 上调用，省去部署成本，建议试试。

原文

5月18日

20:10

歸藏(guizang.ai)@op7418

开发者基于藏师傅的PPT Skill，结合Codex和远程控制，实现了低成本的讲解视频自动生成。视频内容主要用前端生成，配音和部分分镜使用音频和Seedance 2.0模型。该组合还能在聊天中直接预览视频，配合即梦CLI补充真实片段，适合产品更新介绍等场景。这大幅降低了视频制作门槛，让不在家的用户也能一键产出可用性高的内容。

AI产品视频生成 PPT Skill Codex 远程控制 Seedance 2.0

推荐理由：做产品更新或教程视频的团队，可以用这个组合低成本批量产出内容，远程一键搞定，建议试试。

原文

12:16

歸藏(guizang.ai)@op7418

博主展示了将 PPT Skill、Codex 和 Heygen HyperFrames 三个工具组合使用的效果，可以直接基于问题或需求生成带有动效的解释视频。其中 Codex 支持在聊天界面内直接预览视频，极大提升了交互体验。再配合即梦 CLI 补充真实视频片段，就能轻松制作产品更新介绍等视频内容。这个工作流降低了视频制作门槛，适合快速产出高质量解释性内容。

AI产品 Codex Heygen HyperFrames PPT Skill 视频生成工作流

推荐理由：做产品演示、教程或营销视频的团队，现在可以用一句话生成动效视频，省去剪辑和动画制作的繁琐，建议直接复制这个工作流试试。

原文

11:50

歸藏(guizang.ai)@op7418

72°

开发者展示了用 Codex 结合多个工具自动生成一条介绍视频生成方案的完整流程。其中藏师傅的 PPT Skill 负责美学与动效，HyperFrames 处理时间线和渲染，Listenhub Skill 负责配音，即梦 CLI 补充真实视频片段。Codex 还能在聊天中直接预览视频，大幅降低制作门槛。这一组合适合产品更新介绍等场景，展示了 AI 工具链协同的潜力。

AI产品 Codex 视频生成多工具协同 AI工作流产品演示

推荐理由：多工具协同自动生成解释视频，做产品演示或教程的团队可以直接复现这套流程，省去大量手动剪辑时间。

原文

5月15日

14:41

阿里云 Alibaba Cloud@alibaba_cloud

阿里云展示了由AI智能体主导制作的K-POP音乐视频《SPECTRA》，使用Wan2.7和HappyHorse工具，智能体负责生成、迭代和编辑。阿里云MVP @GhostyAIpp 仅负责质量把关和重拍，实现了接近零人工干预的AI视频制作流程。这标志着AI在创意内容生产领域迈出了重要一步，尤其对音乐视频制作行业具有示范意义。

AI产品 AI智能体视频生成 K-POP Wan2.7 HappyHorse

推荐理由：AI智能体已能主导K-POP MV制作，做视频创作或音乐行业的团队值得关注，看看AI如何接近零人工干预完成创意作品。

原文

00:24

AK@_akhaliq

精选

AnyFlow 是一种新型视频扩散模型，支持任意步长的生成，通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制，允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏，使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本，同时保持高质量输出。

论文视频生成扩散模型蒸馏 AnyFlow 策略流图

推荐理由：视频生成开发者终于有了灵活控制步长的方案——AnyFlow 让生成速度和质量可调，做视频 AI 的团队值得关注，能显著降低推理成本。

原文

5月13日

09:11

Runway ML@runwayml

Runway宣布其AI视频生成技术已进化到只需用户提供视角即可将创意变为现实。过去需要奇迹才能实现的电影、广告等创意，现在可通过Runway平台生成。Runway Academy提供学习资源，帮助用户掌握这一工具。这标志着AI视频生成从实验性工具向大众化创作平台的转变。

AI产品视频生成 Runway AI创作创意工具

推荐理由：Runway降低了视频创作门槛，让非专业人士也能快速生成高质量视频内容，对创意行业具有实际应用价值。

原文

09:11

Runway ML@runwayml

Runway 宣布其 AI 创作平台现已登陆 Android 和 iOS 设备，用户可在手机和平板上使用其视频生成、图像编辑等功能。这意味着创作者不再受限于桌面端，能更灵活地利用移动设备进行内容创作。此举扩大了 Runway 的用户覆盖范围，可能推动 AI 视频生成工具的普及。

AI产品视频生成 Runway 移动端

推荐理由：Runway 移动端上线，让 AI 视频创作更便捷，适合内容创作者和移动办公用户。

原文

09:11

Runway ML@runwayml

70°

Runway推出Characters功能，可将单张图片转化为实时视频智能体，以24帧/秒的HD画质流式输出，端到端延迟仅1.75秒。该技术实现了从静态图像到表情丰富、可对话视频的即时转换，标志着视频生成进入实时交互阶段。这一突破将推动虚拟角色、直播和客户服务等场景的AI应用。

AI产品视频生成智能体实时交互 Runway

推荐理由：Runway Characters将视频生成延迟降至1.75秒，实现实时交互，为AI视频智能体在对话和直播领域的落地提供了关键技术基础。

原文

5月12日

18:40

阶跃星辰 Stepfun@StepFun_ai

StepFun团队在社交媒体上预告，其将于明日（当地时间）在加州圣马特奥举办线下活动，邀请用户与开发者直接交流。此举意在回应外界对其AI模型基准测试表现的好奇与疑问，当前该团队的可灵AI模型在视频生成等领域已引起广泛关注。活动具体时间为下午5:30，预计可现场体验模型能力并获取最新进展。

AI产品视频生成可灵AI 线下活动 StepFun 社区交流

推荐理由：提供直接接触顶尖AI视频生成团队的机会，对关注可灵AI进展的从业者而言是难得的交流窗口。

原文

18:07

快手可灵 Kling@Kling_ai

Kling AI 宣布其平台现已提供视频创作模板，用户可直接使用模板快速生成视频内容。该功能降低了视频创作门槛，使非专业用户也能轻松制作高质量视频。模板涵盖多种场景和风格，进一步拓展了 AI 视频生成的应用范围。此举标志着 AI 视频工具从单纯生成向模板化普及演进，可能加速 AI 在内容创作领域的落地。

AI产品视频生成 AI产品/工具模板化

推荐理由：Kling AI 的模板功能将视频生成从技术门槛中解放，对内容创作者和普通用户均有实用价值，预示 AI 视频工具从试用到常态化的转变。

原文

17:19

歸藏(guizang.ai)@op7418

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

AI模型图像生成视频生成 GPT-image-2.0 Seedance 2.0 多模态

推荐理由：对于AI生成领域从业者，GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展，值得关注其在实际应用中的表现和潜在影响。

原文

17:19

歸藏(guizang.ai)@op7418

据消息，谷歌即将发布新一代视频生成模型 Veo 4（可能另有名称）。该模型支持类似 Seedance 2.0 的全能参考功能，可实现视频内容的修改与替换。在文字生成视频质量上略优于 Seedance 2.0，清晰度和细节也有提升，但整体差异不明显。

AI产品视频生成谷歌 Veo 4 内容编辑

推荐理由：此消息表明谷歌正加速迭代视频生成模型，Veo 4 的全能参考功能或将为创意工作者提供更高效的视频编辑工具。

原文