全部 AI 动态 · AI 热点

6月3日

22:39

22:39IT之家（博客/媒体）

京东发布并开源了 JoyAI-Echo 长音视频生成框架，解决了长视频生成中角色身份、声音不一致和生成速度慢的行业难题。该框架内置记忆库，可在多镜头中保持角色外观和音色一致，实测 5 分钟视频无崩坏。通过 DMD 技术实现约 7.5 倍推理加速，并支持对话式编辑，用户可直接用自然语言修改镜头，无需重跑整条视频。京东官方称该框架已进入全球第一梯队，项目已开源在 GitHub。

AI产品视频生成开源/仓库京东 JoyAI-Echo 对话式编辑

推荐理由：长视频生成领域终于有了能保持角色一致的开源方案，做视频生成、影视制作的团队可以直接拿来用，省去大量后期修复时间。

原文

16:11

16:11IT之家（博客/媒体）

字节跳动火山引擎的 MaaS 业务营收目标在 2026 年已上调至 150 亿元，是 2025 年实际营收的 10 倍。其中，视频生成模型 Seedance 2.0 单月营收已超过 10 亿元，且仍在增长，而该模型 API 尚未在海外全量上线。Seedance 2.0 在多项指标上超越海外顶尖视频模型，字节还计划发布质量提升 20% 的 2.1 版本。这一数据表明，字节在 AI 视频生成领域的商业化能力正在快速释放。

AI产品字节跳动 Seedance 2.0 视频生成 MaaS 商业化

推荐理由：视频生成模型商业化迎来里程碑——Seedance 2.0 单月营收超 10 亿，说明 AI 视频 API 已从概念走向真金白银。做视频生成、内容创作或云服务的团队值得关注，字节的定价和增长策略可能成为行业风向标。

原文

6月2日

17:46

rohanpaul_ai@rohanpaul_ai

76°

LongCat 发布了 WBench，一个用于测试视频世界模型的基准，将测试重点从视觉质量转向控制、多轮记忆、指令遵循和物理合理性。WBench 包含 289 个案例、1058 次交互、20 个模型、5 个维度和 22 个自动指标，覆盖导航、主体动作、事件编辑、视角切换等。测试发现，没有模型在所有维度上占优，视觉质量与控制能力几乎无关。WBench 的设计将世界设置与用户动作分离，帮助研究者定位失败原因。这标志着视频世界模型评估从“视频好不好看”转向“模型能否维持可控世界”。

论文视频生成世界模型基准测试 WBench LongCat

推荐理由：做视频生成或世界模型的研究者终于有了正经的评估工具——WBench 把视觉质量和控制能力分开测，看完你会明白为什么很多漂亮视频其实不能当世界模型用。

原文

12:10

Latent.Space@latentspacepod

精选

Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据，idea-to-code 的速度已经很快，瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切，下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端，LLM 作为后端，生成式 UI 将取代 HTML/CSS，物理具身可能成为强大 AI 的工具。

AI模型视频生成世界模型智能体扩散模型 LLM

推荐理由：Ethan He 对 AI 前沿的预判直击要害，做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察，值得点开细品。

原文

11:11

arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

该研究提出一种无需渲染的框架，通过将3D人体网格压缩为token，直接输入DiT架构的视频扩散模型，实现精确的人体运动控制。相比依赖2D渲染引导的现有方法，该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明，该框架在人体运动控制基准上表现优异，证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

论文视频生成 3D人体运动控制网格token化扩散模型 DiT架构

推荐理由：做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token，避免2D引导的伪影问题，建议做运动控制或虚拟人应用的开发者点开看看。

原文

09:59

LovartAI@lovart_ai

Lovart平台发布教程，展示如何结合OpenAI的GPT Image 2图像生成模型与Seedance 2.0视频生成工具，制作动漫风格的美食短视频。教程从生成静态美食图像开始，再通过Seedance 2.0将其转化为动态短片，实现从图片到视频的完整工作流。该方法降低了动漫风格视频创作的门槛，适合内容创作者和短视频爱好者快速产出高质量素材。Lovart作为集成平台，简化了多工具协作的流程，让用户无需编程即可完成创作。

AI产品 GPT Image 2 Seedance 2.0 Lovart 动漫风格视频生成

推荐理由：想做动漫风美食短视频但不会画图？这个教程用GPT Image 2出图+Seedance 2.0动起来，两步搞定，内容创作者可以直接抄作业。

原文

09:53

HeyGen@HeyGen_Official

HeyGen 展示了一个 AI Agent 工作流，能够每周自动生成市场更新视频。该工作流通过 HeyGen CLI/MCP 生成脚本和 A-roll，利用 HyperFrames 模板更新最新数据并渲染最终视频。顾问只需专注于专业知识和分析，而 AI Agent 负责全部生产环节。结果是从同一可重复工作流中持续产出客户就绪的视频更新。该模板可在几分钟内复现，适合需要定期制作视频内容的团队。

AI产品 AI Agent 视频生成工作流自动化 HeyGen HyperFrames

推荐理由：这个工作流解决了视频内容生产的重复劳动问题，做市场更新或客户报告的团队可以直接复制，每周省下几小时制作时间。

原文

6月1日

17:51

NVIDIA AI@NVIDIAAI

NVIDIA 展示了其 Cosmos 3 模型的图像转视频生成能力。用户输入一张从仪表盘视角拍摄的 F1 赛车图片，并提示“高速赛车在多个弯道中行驶”，模型生成了连贯且逼真的赛车视频。该演示强调了 Cosmos 3 在视频生成领域的进展，尤其擅长处理动态场景和复杂运动。这一技术有望在影视制作、自动驾驶仿真和游戏开发中发挥重要作用。

AI产品 NVIDIA Cosmos 3 图像转视频视频生成 F1

推荐理由：NVIDIA 的 Cosmos 3 让图像转视频生成达到了新高度，做影视特效或自动驾驶仿真的团队值得关注，直接看效果比读论文更直观。

原文

10:31

arXiv cs.AI@Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai, Lei Zhang, Xun Xiao, Thomas Seidl, Daniel Cremers, Volker Tresp

TunerDiT 提出了一种无需额外训练的多事件视频生成方法，通过分析扩散变换器（DiT）的去噪轨迹，发现文本条件从全局布局到细节的转变点。该方法包含两个关键组件：事件分区掩码（强制事件边界并允许过渡带）和跨事件提示融合（注入相邻事件语义进行后期细化）。在自建的多事件基准测试 Meve 上，TunerDiT 在 8 个指标上达到最优，并能在视频一致性和事件分离之间进行可调权衡。随着事件数量增加，文本对齐性能提升，显示出扩展潜力。

论文扩散模型视频生成多事件生成 DiT 无需训练

推荐理由：做视频生成的研究者或开发者，如果被长视频多事件生成的一致性困扰，TunerDiT 的零训练方案直接可用，值得关注其事件边界控制与提示融合的设计。

原文

10:29

arXiv cs.AI@Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

Lumos-Nexus 是一种训练高效的统一视频生成框架，解决了将高保真生成器集成到统一训练循环中计算成本过高的问题。它采用两阶段设计：训练时仅用轻量级生成器与理解模块对齐，学习推理驱动的语义控制；推理时通过统一渐进频率桥接（UPFB）在共享潜在空间中将生成任务逐步交给高容量预训练生成器，实现从粗到细的优化，生成高保真视频而不牺牲推理质量。为填补推理驱动视频生成基准的空白，团队引入了 VR-Bench 评估模型将推断意图转化为连贯视频的能力。实验表明，Lumos-Nexus 在 VBench 上显著提升了视觉真实感和时间连贯性，在 VR-Bench 上展示了强大的推理生成性能。代码和模型已开源。

论文视频生成统一模型推理驱动频率桥接开源/仓库

推荐理由：视频生成领域终于有了兼顾推理能力和视觉保真度的方案，做视频理解与生成统一模型的团队可以直接参考其两阶段设计，省去大量训练成本。

原文

08:33

berryxia@berryxia

一条推文指出，许多每月付费的AI工具、Bloomberg终端、交易系统等，本质是资本维持稳定收入的机制。GitHub上已有10个开源项目可替代这些付费产品，涵盖对冲基金、交易系统、金融终端、AI聊天、视频工作室、虚拟主播、广告生成、邮件管理、浏览器和视频制作。这些项目免费、功能强大、支持自托管，让用户完全掌握数据和控制权。例如，Fincept Terminal可替代Bloomberg，LibreChat可自托管多模型AI聊天，Open Higgsfield AI集成多种图像和视频生成模型。

AI产品开源/仓库金融工具 AI聊天视频生成自托管

推荐理由：想省掉每月订阅费、又不想被厂商锁定的开发者和金融从业者，这10个开源项目直接给你机构级工具，建议收藏试玩。

原文

5月31日

23:09

AI Will@FinanceYF5

72°

xAI 发布 Grok-Imagine-Video-1.5-Preview（720p），在 Image-to-Video Arena 排行榜上夺得第一。相比前代 Grok-Imagine-Video，新模型评分大幅提升 52 分，超越了 Seedance-2.0 和 HappyHorse 等竞品。这标志着 xAI 在视频生成领域的快速进步，也展示了同一家公司内部迭代的巨大潜力。

AI产品视频生成 Grok-Imagine-Video xAI Image-to-Video 模型迭代

推荐理由：xAI 用一代产品就追平甚至超越头部视频模型，做视频生成的团队值得关注这个新晋选手，看看它能否持续迭代。

原文

16:38

AI Will@FinanceYF5

72°

Arena.ai 宣布 Grok-Imagine-Video-1.5-Preview (720p) 在 Image-to-Video Arena 中排名第一，相比前代 Grok-Imagine-Video (720p) 提升了 52 分，超越了 Seedance-2.0 和 HappyHorse 等顶级模型。这是 xAI 在视频生成领域的重要突破，展示了 Grok 系列模型的持续进化能力。该模型在图像到视频的转换质量上取得了显著进步，为 AI 视频生成树立了新标杆。

AI模型 Grok xAI 视频生成图生视频 Arena

推荐理由：xAI 的视频模型首次登顶 Arena，做 AI 视频生成或内容创作的团队值得关注这个新选择，看看它能否在效果和速度上带来惊喜。

原文

09:03

lmarena.ai@lmarena_ai

72°

xAI 的 Grok-Imagine-Video-1.5-Preview 在图像转视频竞技场中排名第一，相比前代 Grok-Imagine-Video 提升了 52 分，超越了 Seedance-2.0 和 HappyHorse 等顶级模型。该模型支持 720p 分辨率输出，标志着 xAI 在视频生成领域的重大突破。这一进展表明 AI 视频生成竞争正加速，xAI 已跻身第一梯队。

AI模型 xAI Grok 视频生成图像转视频模型竞技场

推荐理由：做视频生成或关注多模态模型的开发者值得关注——Grok 视频模型首次超越主流竞品，意味着又多了一个高性价比选择，建议去竞技场实测对比效果。

原文

5月30日

11:04

Google Gemini App@GeminiApp

Google 的 Gemini Omni 模型展示了从屏幕视频输入到现实物理模拟的端到端能力。用户只需一个提示词，模型就能理解视频内容，应用物理规则并生成无缝的新运动。该功能将视频理解与物理仿真结合，为创意内容生成和交互式应用开辟了新可能。目前已在 X 平台开放试用，用户可分享自己的实验案例。

AI产品 Gemini Omni 视频生成物理模拟 Google 创意工具

推荐理由：视频创作者和 AI 应用开发者可以直接用 Gemini Omni 把屏幕内容变成物理模拟视频，省去传统 3D 建模和动画流程，值得一试。

原文

10:12

lmarena.ai@lmarena_ai

精选78°

阿里Wan团队开发的Wan2.7-t2v-2026-04-25模型在Text-to-Video Arena中排名第三。该模型不仅是一个视频生成器，更是一套导演级工具套件，支持通过文本、图像、音频和视频进行多模态控制，可定制多达5个角色参考输入和语音配置，并具备视频编辑、克隆、重风格化、续写等全栈创作能力。在视觉保真度、运动稳定性和提示遵循方面有持续改进。这一成绩标志着中国团队在AI视频生成领域的重要突破。

AI产品视频生成多模态控制阿里Wan 导演套件角色定制

推荐理由：阿里Wan2.7把视频生成从单一工具升级为导演套件，做视频创作、影视后期或AI内容生产的团队可以直接拿来用，多模态控制和角色定制功能尤其实用。

原文

02:18

Decoder@Matthias Bastian

Google 修复了 Gemini 应用中的一个 Bug，该 Bug 导致仅上传一两个 Omni 视频就消耗完整个使用配额。修复后，Ultra 会员的视频生成次数翻倍，且失败的请求不再计入配额。Google 还计划增加其他使用情况的透明度。这一更新解决了用户因配额快速耗尽而无法正常使用的问题。

AI产品 Gemini Bug修复配额优化视频生成 Ultra会员

推荐理由：Gemini 重度用户终于不用再为几个视频就耗尽配额而烦恼了，Ultra 会员还能获得双倍生成次数，建议立即更新应用体验。

原文

00:08

AK@_akhaliq

精选

minWM是一个全栈开源框架，专门用于构建实时交互式视频世界模型。该框架提供了从模型设计到部署的完整工具链。开发者可以利用minWM创建能够实时响应输入的环境模拟。

AI模型 minWM 世界模型视频生成开源框架

推荐理由：开源实时视频世界模型框架

原文

5月29日

11:42

Ate-a-Pi@svpino

72°

一位技术博主分享了一种新颖的视频生成模型训练方法，团队没有使用大型互联GPU集群，而是用多个小型、独立的GPU集群分别训练不同的“专家”模型。这些专家模型在训练时无需通信，训练完成后通过一个智能路由器在推理时动态组合，协同工作。这种方法降低了硬件门槛，且效果出色。论文链接已附，值得技术爱好者深入阅读。

技巧视频生成分布式训练专家模型推理路由论文

推荐理由：这种分布式训练思路颠覆了传统大模型训练范式，做模型训练或视频生成的开发者可以看看论文，或许能启发新的低成本训练方案。

原文

11:07

arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang

精选

浙江大学团队提出 Archon，一个完全预训练的统一多模态模型，用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构，统一了七种模态，并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题，Archon 引入了一种内存高效的语义视频重参数化方法，实现 4 倍 token 压缩同时保留精细动态，并配合语义驱动的视频扩散解码器。此外，提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理，提升了生成保真度和可控性。实验表明，Archon 在多种数字人生成任务上达到或超越现有水平。

论文数字人多模态模型视频生成自回归模型 token压缩

推荐理由：做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了，不用再拼凑多个模型，做沉浸式体验的开发者可以直接参考其架构。

原文

5月28日

11:00

岚叔@lufzzliz

小云雀（XiaoYunQue）推出了自己的Agent Skill功能，比同类产品晚了约半年。该功能每天赠送60积分，足够生成一个约12秒的Seedance 2.0视频。用户可结合Prompt仓库，实现每日自动生成小视频。同时，作者透露其仓库提示词已增至429条精选，并让Claude分析了130个YouTube视频，进一步增强了能力。

AI产品小云雀 Agent Skill 视频生成 Seedance 2.0 Prompt仓库

推荐理由：对AI视频生成和自动化创作感兴趣的团队，可以试试小云雀的Agent Skill搭配Prompt仓库，每天白嫖一个视频，适合做内容实验或日常素材积累。

原文

10:04

Runway ML@runwayml

Runway 推出了 MCP（Model Context Protocol）服务，允许用户将 Runway 的图像和视频生成能力直接集成到 Claude、ChatGPT、Cursor、Replit 等主流 AI 平台中。该服务支持 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等先进模型，用户无需切换工具即可在原有工作流中生成高质量内容。连接过程仅需数秒，大幅降低了 AI 视频创作的门槛。此举标志着 Runway 从独立工具向平台化生态的转变，为开发者和创作者提供了更灵活的内容生成方式。

AI产品 Runway MCP/工具视频生成图像生成 AI 集成

推荐理由：Runway MCP 让视频生成能力直接嵌入你日常使用的 AI 助手和开发环境，做内容创作或 AI 应用的团队可以秒级接入，省去切换工具的麻烦，值得一试。

原文

09:50

Amjad Masad@amasad

Runway 推出 MCP 协议支持，允许用户在 Claude、ChatGPT、Cursor、Replit 等主流 AI 工具中直接调用 Runway 的模型生成图像和视频。支持的模型包括 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等。用户只需在代理中连接 MCP 即可使用，无需切换平台。这大幅降低了 AI 视频创作的门槛，让开发者和创作者能在工作流中无缝集成生成能力。

AI产品 Runway MCP/工具视频生成图像生成 Replit

推荐理由：做 AI 视频或图像生成的开发者，终于可以在 Replit/Claude 里直接调用 Runway 的顶级模型，不用来回切换工具，建议试试 MCP 连接。

原文

03:53

NVIDIA AI@NVIDIAAI

83°

Hao AI Lab 开源了 FastVideo Dreamverse 项目，将视频生成速度大幅提升。此前在 8 张 Blackwell GPU 上生成 5 秒视频需约 25 秒，现在单张 Blackwell GPU 仅需 4.2 秒。该技术基于 LTX-2 模型，可在单张 NVIDIA B200 GPU 上 7 秒生成 30 秒 1080p 视频。项目已完全开源，包含代码和博客说明。

AI产品视频生成开源/仓库 NVIDIA B200 LTX-2 实时渲染

推荐理由：视频生成速度从分钟级降到秒级，做 AI 视频创作和实时交互的团队可以直接用开源方案，大幅降低硬件门槛。

原文

5月27日

10:52

Pandaily@contact@pandaily.com (Pandaily)

精选

美团发布LongCat-Video-Avatar 1.5版本，这是一个开源的数字人视频生成框架。该框架在口型同步精度上达到最先进水平，只需8步推理即可生成逼真视频。

AI模型 LongCat-Video-Avatar Meituan 数字人视频生成开源模型

推荐理由：8步推理生成逼真数字人

原文

08:20

岚叔@lufzzliz

精选

本文介绍了如何将 Gemini Omni 用作视频导演工具，核心思路是从描述画面升级为控制系统。Google AI 提供了 5 种 Prompt 方法：调用真实世界知识、控制文字渲染、像摄影师一样写镜头、局部迭代修改、动态修改动作。文章给出了具体的 Prompt 骨架和镜头词库，帮助用户像导演一样控制世界知识、主体动作、镜头语言、文字系统、时间节奏和迭代约束。这种方法让视频生成更精准、可迭代，适合内容创作者和视频制作者直接使用。

AI产品 Gemini Omni 视频生成 Prompt 工程导演控制内容创作

推荐理由：做视频生成的内容创作者终于不用靠堆砌形容词碰运气了——这套导演式 Prompt 方法让你像控制分镜一样控制输出，建议直接套用文中的镜头词库和骨架试试。

原文

5月26日

22:56

NVIDIA AI@NVIDIAAI

NVIDIA AI 官方账号发布了一段由 Julia Turc 制作的关于“世界模型”的讲解视频。视频澄清了世界模型与视频生成的区别，探讨了其超越“AI 垃圾”的潜力，并幽默回应了 Yann LeCun 的争议。该视频旨在帮助观众理解这一当前 AI 领域最热门但最模糊的概念之一。

AI模型世界模型 NVIDIA 视频生成 AI 科普 Yann LeCun

推荐理由：世界模型是当前 AI 最模糊的概念之一，这个视频帮你理清它与视频生成的区别，想搞懂 AI 前沿方向的建议点开。

原文

12:23

arXiv cs.LG@Ali Rouzbayani, Bidhan Roy, Marcos Villagra, Zhiying Jiang

精选72°

巴黎 2.0 是首个通过去中心化计算预训练的视频生成模型，解决了去中心化训练中时间连贯视频生成的难题。相比相同算力预算下的集中式模型，它在低分辨率文本到视频任务中将 FVD 从 561.04 降至 279.01，提升约 2 倍，同时提高了 CLIP 文本-视频相似度和美学评分。该模型基于巴黎 1.0 的去中心化扩散模型架构，无需单一 GPU 集群即可完成训练。这项工作证明了去中心化训练在视频生成领域的可行性，为降低大规模模型训练门槛提供了新路径。

论文视频生成去中心化训练扩散模型开源/仓库 Paris 2.0

推荐理由：去中心化训练让视频生成模型不再依赖昂贵 GPU 集群，做视频生成或分布式训练的团队可以关注这个开源方案，直接降低算力成本。

原文

11:34

11:34IT之家（博客/媒体）

76°

小米汽车发布了全新的世界模型框架 Xiaomi Auto World Model，首次将三维重建与视频生成深度耦合，打破了行业长期将两者独立的技术路线。该框架通过重建提供几何锚点、生成填补未观测场景，实现了高稳定性、高一致性和高真实性，在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA。目前该模型已在小米汽车的合成数据生成、仿真测试和智能座舱辅助驾驶学堂三大场景落地，交付了超过 10 万 clips 高质量合成数据。这一技术路径有望推动辅助驾驶从“场景感知”向“认知推演”的高阶形态跃迁。

AI产品世界模型自动驾驶三维重建视频生成小米汽车

推荐理由：小米汽车把世界模型的两条路线拧成一股绳，解决了重建缺想象、生成易漂移的行业难题。做自动驾驶感知或仿真的团队，建议看看他们的论文和技术主页，或许能启发新的技术路径。

原文

5月25日

11:47

美团技术团队@美团技术团队

美团开源了 LongCat-Video-Avatar 1.5，这是一款从 SOTA 迈向商业级应用的数字人视频模型。它在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面提升，能稳定输出高质量内容。该模型解决了数字人视频在复杂商业场景中不自然、不稳定、成本高的问题，让数字人从实验室走向真实应用。开源版本可供开发者直接使用，推动数字人视频生成技术的普及。

AI模型数字人视频生成开源/仓库唇形同步美团

推荐理由：做数字人视频生成或虚拟主播的团队，终于有了一个能直接商用的开源模型——唇形同步和长视频稳定性提升明显，建议试试 LongCat 1.5 来降低制作成本。

原文

5月24日

16:36

阿里云 Alibaba Cloud@alibaba_cloud

5月26日，Picsart视频产品主管Narek Hayrapetyan将在新加坡金沙会展中心分享多模态AI如何彻底改变视觉创作。活动由阿里云主办，聚焦AI在图像和视频生成中的实际应用。参与者可现场了解多模态模型如何提升创作效率。

行业多模态视频生成大模型阿里云

推荐理由：听Picsart高管讲多模态创作

原文

5月23日

04:21

NVIDIA AI@NVIDIAAI

精选

NVIDIA 推出 LongLive-2.0，支持生成 720p 分辨率的长视频。该模型在多镜头序列中保持主体和背景一致性，并能在视频分块边界处切换提示词。相比前代，LongLive-2.0 在长视频连贯性和用户控制性上有所提升。

AI模型 LongLive-2.0 NVIDIA 视频生成长视频

推荐理由：NVIDIA 新模型能生成长视频还保持一致性

原文

5月22日

14:37

14:37IT之家（博客/媒体）

76°

美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5，该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术，将生成步数从 50 步压缩至 8 步，推理效率提升约 15 倍，生成 10 秒视频仅需约 1 分钟。在用户偏好对比中，该模型相比 Kling Avatar 2.0 胜率为 65.9%，相比 OmniHuman-1.5 胜率为 61.1%，相比 HeyGen 胜率为 54.3%。美团表示，数字人视频生成正从展示效果走向真实使用，希望开源能成为可验证、可改进、可共建的技术基座。

AI模型数字人视频生成开源/仓库美团 LongCat-Video-Avatar

推荐理由：数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成，效率提升 15 倍，做虚拟主播、在线教育、客服视频的团队可以直接拿来用，省去大量渲染时间。

原文

12:29

pandaily@contact@pandaily.com (Pandaily)

oiioii 是一个新兴的视频生成平台，提供超过 150 种视频动画风格，旨在满足创作者对特定艺术风格的控制需求。该平台在视频智能体时代推出，强调风格多样性和定制化，帮助用户从文本或图像生成具有独特视觉效果的视频。这一举措反映了 AI 视频生成领域从通用模型向专业化、风格化方向发展的趋势。

AI产品视频生成动画风格创作者工具 oiioii AI 视频

推荐理由：对于追求视频艺术风格多样性的创作者，oiioii 提供了超过 150 种动画风格，解决了通用模型风格单一的问题。做短视频、广告或动画的团队可以直接尝试，找到适合项目的独特视觉语言。

原文

07:53

AI Will@FinanceYF5

Google 发布了名为 Gemini Omni 的新模型，能够从任意输入（如视频）生成任意内容。该模型首先支持视频输入，类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用，API 支持即将推出。这标志着多模态 AI 能力的重大扩展，让用户能更灵活地创作和交互。

AI模型 Gemini Omni 多模态视频生成 Google AI模型

推荐理由：多模态 AI 又进一步——Gemini Omni 从视频直接生成内容，做视频创作或内容生产的团队值得关注，API 开放后可以直接集成到工作流中。

原文

02:34

Runway ML@runwayml

精选

Runway推出Aleph 2.0版本，新增单帧编辑功能。用户可以在视频中编辑某一帧，预览更改效果，然后Aleph 2.0自动将该编辑传播到整个视频。该功能已在新的Edit Studio网页版上线。

AI产品 Runway Aleph 视频编辑帧编辑视频生成

推荐理由：Runway的Aleph 2.0能让你改一帧全片跟着变

原文

5月21日

15:20

AI Will@FinanceYF5

Google 发布了全新模型 Gemini Omni，能够根据任意输入（如文本、图像、音频）生成任意输出内容，首先支持视频生成。该功能将集成到 Gemini App、Flow 和 YouTube 中，API 支持即将推出。Omni 被视为“Nano Banana”的视频版，标志着多模态生成能力的重大突破。这一进展将极大简化内容创作流程，尤其对视频创作者和开发者意义重大。

AI产品 Gemini Omni 多模态生成视频生成 Google API

推荐理由：多模态生成从文本扩展到视频，做内容创作或视频开发的团队可以直接在 Gemini App 和 YouTube 中体验，建议第一时间试用。

原文

15:14

marktechpost@Asif Razzaq

精选

字节跳动智能创作实验室推出Lance，一个原生统一多模态模型，仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4，在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源，代码和权重已在GitHub发布。

AI模型 Lance ByteDance 多模态视频生成开源模型

推荐理由：3B参数打通图视频理解生成

原文

11:41

快手可灵 Kling@Kling_AI

Kling AI 在戛纳电影节上展示了其参与的全 AI 生成电影项目 RAPHAEL。该片由 Mateo AI Studio 与韩国 MBC C&I 的 AI 内容实验室合作开发，计划于 2026 年院线上映。项目全程使用 Kling AI 的视频模型来生成独特视觉效果，旨在证明纯 AI 电影制作的工业可行性，并推动 AI 原生影院电影的新趋势。

AI产品 Kling AI AI 电影视频生成戛纳影视制作

推荐理由：这是 AI 视频生成从短片走向长片院线电影的关键一步，做影视制作、AI 内容创作的团队值得关注——它展示了 AI 工具在工业级项目中的实际落地能力。

原文

08:01

Andrew Ng@AndrewYNg

Andrew Ng 宣布与 Google Cloud 合作推出新课程，教授如何构建能生成图像和视频的 AI 智能体。课程重点在于让智能体自我评估输出并迭代改进质量，涵盖三种评估技术：图像-文本相似度评分、LLM 裁判按品牌一致性等自定义标准评分、以及结构化评分表。学员将学习图像和视频提示工程，构建将品牌指南转化为 UI 模型的图像智能体，以及规划多场景解说视频并同步音频的视频智能体。该课程面向希望探索 AI 智能体在视觉内容生成领域应用的开发者。

AI产品智能体图像生成视频生成评估技术 Google Cloud

推荐理由：Andrew Ng 的课程一向实用，这次聚焦图像/视频生成智能体这个少有人深入的方向，做多模态或内容生成的开发者可以直接学起来，掌握让智能体自我迭代的关键技巧。

原文