22:39IT之家(博客/媒体)京东发布并开源了 JoyAI-Echo 长音视频生成框架,解决了长视频生成中角色身份、声音不一致和生成速度慢的行业难题。该框架内置记忆库,可在多镜头中保持角色外观和音色一致,实测 5 分钟视频无崩坏。通过 DMD 技术实现约 7.5 倍推理加速,并支持对话式编辑,用户可直接用自然语言修改镜头,无需重跑整条视频。京东官方称该框架已进入全球第一梯队,项目已开源在 GitHub。AI产品视频生成开源/仓库京东JoyAI-Echo对话式编辑推荐理由:长视频生成领域终于有了能保持角色一致的开源方案,做视频生成、影视制作的团队可以直接拿来用,省去大量后期修复时间。原文
16:11IT之家(博客/媒体)字节跳动火山引擎的 MaaS 业务营收目标在 2026 年已上调至 150 亿元,是 2025 年实际营收的 10 倍。其中,视频生成模型 Seedance 2.0 单月营收已超过 10 亿元,且仍在增长,而该模型 API 尚未在海外全量上线。Seedance 2.0 在多项指标上超越海外顶尖视频模型,字节还计划发布质量提升 20% 的 2.1 版本。这一数据表明,字节在 AI 视频生成领域的商业化能力正在快速释放。AI产品字节跳动Seedance 2.0视频生成MaaS商业化1 个信源在谈推荐理由:视频生成模型商业化迎来里程碑——Seedance 2.0 单月营收超 10 亿,说明 AI 视频 API 已从概念走向真金白银。做视频生成、内容创作或云服务的团队值得关注,字节的定价和增长策略可能成为行业风向标。原文
17:46rohanpaul_ai@rohanpaul_ai76°LongCat 发布了 WBench,一个用于测试视频世界模型的基准,将测试重点从视觉质量转向控制、多轮记忆、指令遵循和物理合理性。WBench 包含 289 个案例、1058 次交互、20 个模型、5 个维度和 22 个自动指标,覆盖导航、主体动作、事件编辑、视角切换等。测试发现,没有模型在所有维度上占优,视觉质量与控制能力几乎无关。WBench 的设计将世界设置与用户动作分离,帮助研究者定位失败原因。这标志着视频世界模型评估从“视频好不好看”转向“模型能否维持可控世界”。论文视频生成世界模型基准测试WBenchLongCat推荐理由:做视频生成或世界模型的研究者终于有了正经的评估工具——WBench 把视觉质量和控制能力分开测,看完你会明白为什么很多漂亮视频其实不能当世界模型用。原文
12:10Latent.Space@latentspacepod精选Ethan He 在 Latent Space 播客中分享了对视频生成、世界模型、LLM、智能体和持续学习的看法。他认为视频模型的大部分智能来自语言而非视频数据,idea-to-code 的速度已经很快,瓶颈在于计算资源。他强调迭代速度在模型开发中几乎压倒一切,下一个飞跃将是视频智能体而非更好的视频模型。他还预测扩散模型将成为 AGI 的前端,LLM 作为后端,生成式 UI 将取代 HTML/CSS,物理具身可能成为强大 AI 的工具。AI模型视频生成世界模型智能体扩散模型LLM推荐理由:Ethan He 对 AI 前沿的预判直击要害,做视频生成、智能体或世界模型的开发者看完会有启发——尤其是关于迭代速度和智能体方向的洞察,值得点开细品。原文
11:11arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang该研究提出一种无需渲染的框架,通过将3D人体网格压缩为token,直接输入DiT架构的视频扩散模型,实现精确的人体运动控制。相比依赖2D渲染引导的现有方法,该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明,该框架在人体运动控制基准上表现优异,证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。论文视频生成3D人体运动控制网格token化扩散模型DiT架构推荐理由:做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token,避免2D引导的伪影问题,建议做运动控制或虚拟人应用的开发者点开看看。原文
09:59LovartAI@lovart_aiLovart平台发布教程,展示如何结合OpenAI的GPT Image 2图像生成模型与Seedance 2.0视频生成工具,制作动漫风格的美食短视频。教程从生成静态美食图像开始,再通过Seedance 2.0将其转化为动态短片,实现从图片到视频的完整工作流。该方法降低了动漫风格视频创作的门槛,适合内容创作者和短视频爱好者快速产出高质量素材。Lovart作为集成平台,简化了多工具协作的流程,让用户无需编程即可完成创作。AI产品GPT Image 2Seedance 2.0Lovart动漫风格视频生成10 个信源在谈推荐理由:想做动漫风美食短视频但不会画图?这个教程用GPT Image 2出图+Seedance 2.0动起来,两步搞定,内容创作者可以直接抄作业。原文
09:53HeyGen@HeyGen_OfficialHeyGen 展示了一个 AI Agent 工作流,能够每周自动生成市场更新视频。该工作流通过 HeyGen CLI/MCP 生成脚本和 A-roll,利用 HyperFrames 模板更新最新数据并渲染最终视频。顾问只需专注于专业知识和分析,而 AI Agent 负责全部生产环节。结果是从同一可重复工作流中持续产出客户就绪的视频更新。该模板可在几分钟内复现,适合需要定期制作视频内容的团队。AI产品AI Agent视频生成工作流自动化HeyGenHyperFrames推荐理由:这个工作流解决了视频内容生产的重复劳动问题,做市场更新或客户报告的团队可以直接复制,每周省下几小时制作时间。原文
17:51NVIDIA AI@NVIDIAAINVIDIA 展示了其 Cosmos 3 模型的图像转视频生成能力。用户输入一张从仪表盘视角拍摄的 F1 赛车图片,并提示“高速赛车在多个弯道中行驶”,模型生成了连贯且逼真的赛车视频。该演示强调了 Cosmos 3 在视频生成领域的进展,尤其擅长处理动态场景和复杂运动。这一技术有望在影视制作、自动驾驶仿真和游戏开发中发挥重要作用。AI产品NVIDIACosmos 3图像转视频视频生成F110 个信源在谈推荐理由:NVIDIA 的 Cosmos 3 让图像转视频生成达到了新高度,做影视特效或自动驾驶仿真的团队值得关注,直接看效果比读论文更直观。原文
10:31arXiv cs.AI@Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai, Lei Zhang, Xun Xiao, Thomas Seidl, Daniel Cremers, Volker TrespTunerDiT 提出了一种无需额外训练的多事件视频生成方法,通过分析扩散变换器(DiT)的去噪轨迹,发现文本条件从全局布局到细节的转变点。该方法包含两个关键组件:事件分区掩码(强制事件边界并允许过渡带)和跨事件提示融合(注入相邻事件语义进行后期细化)。在自建的多事件基准测试 Meve 上,TunerDiT 在 8 个指标上达到最优,并能在视频一致性和事件分离之间进行可调权衡。随着事件数量增加,文本对齐性能提升,显示出扩展潜力。论文扩散模型视频生成多事件生成DiT无需训练推荐理由:做视频生成的研究者或开发者,如果被长视频多事件生成的一致性困扰,TunerDiT 的零训练方案直接可用,值得关注其事件边界控制与提示融合的设计。原文
10:29arXiv cs.AI@Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong LiuLumos-Nexus 是一种训练高效的统一视频生成框架,解决了将高保真生成器集成到统一训练循环中计算成本过高的问题。它采用两阶段设计:训练时仅用轻量级生成器与理解模块对齐,学习推理驱动的语义控制;推理时通过统一渐进频率桥接(UPFB)在共享潜在空间中将生成任务逐步交给高容量预训练生成器,实现从粗到细的优化,生成高保真视频而不牺牲推理质量。为填补推理驱动视频生成基准的空白,团队引入了 VR-Bench 评估模型将推断意图转化为连贯视频的能力。实验表明,Lumos-Nexus 在 VBench 上显著提升了视觉真实感和时间连贯性,在 VR-Bench 上展示了强大的推理生成性能。代码和模型已开源。论文视频生成统一模型推理驱动频率桥接开源/仓库推荐理由:视频生成领域终于有了兼顾推理能力和视觉保真度的方案,做视频理解与生成统一模型的团队可以直接参考其两阶段设计,省去大量训练成本。原文
08:33berryxia@berryxia一条推文指出,许多每月付费的AI工具、Bloomberg终端、交易系统等,本质是资本维持稳定收入的机制。GitHub上已有10个开源项目可替代这些付费产品,涵盖对冲基金、交易系统、金融终端、AI聊天、视频工作室、虚拟主播、广告生成、邮件管理、浏览器和视频制作。这些项目免费、功能强大、支持自托管,让用户完全掌握数据和控制权。例如,Fincept Terminal可替代Bloomberg,LibreChat可自托管多模型AI聊天,Open Higgsfield AI集成多种图像和视频生成模型。AI产品开源/仓库金融工具AI聊天视频生成自托管推荐理由:想省掉每月订阅费、又不想被厂商锁定的开发者和金融从业者,这10个开源项目直接给你机构级工具,建议收藏试玩。原文
23:09AI Will@FinanceYF572°xAI 发布 Grok-Imagine-Video-1.5-Preview(720p),在 Image-to-Video Arena 排行榜上夺得第一。相比前代 Grok-Imagine-Video,新模型评分大幅提升 52 分,超越了 Seedance-2.0 和 HappyHorse 等竞品。这标志着 xAI 在视频生成领域的快速进步,也展示了同一家公司内部迭代的巨大潜力。AI产品视频生成Grok-Imagine-VideoxAIImage-to-Video模型迭代推荐理由:xAI 用一代产品就追平甚至超越头部视频模型,做视频生成的团队值得关注这个新晋选手,看看它能否持续迭代。原文
16:38AI Will@FinanceYF572°Arena.ai 宣布 Grok-Imagine-Video-1.5-Preview (720p) 在 Image-to-Video Arena 中排名第一,相比前代 Grok-Imagine-Video (720p) 提升了 52 分,超越了 Seedance-2.0 和 HappyHorse 等顶级模型。这是 xAI 在视频生成领域的重要突破,展示了 Grok 系列模型的持续进化能力。该模型在图像到视频的转换质量上取得了显著进步,为 AI 视频生成树立了新标杆。AI模型GrokxAI视频生成图生视频Arena推荐理由:xAI 的视频模型首次登顶 Arena,做 AI 视频生成或内容创作的团队值得关注这个新选择,看看它能否在效果和速度上带来惊喜。原文
09:03lmarena.ai@lmarena_ai72°xAI 的 Grok-Imagine-Video-1.5-Preview 在图像转视频竞技场中排名第一,相比前代 Grok-Imagine-Video 提升了 52 分,超越了 Seedance-2.0 和 HappyHorse 等顶级模型。该模型支持 720p 分辨率输出,标志着 xAI 在视频生成领域的重大突破。这一进展表明 AI 视频生成竞争正加速,xAI 已跻身第一梯队。AI模型xAIGrok视频生成图像转视频模型竞技场推荐理由:做视频生成或关注多模态模型的开发者值得关注——Grok 视频模型首次超越主流竞品,意味着又多了一个高性价比选择,建议去竞技场实测对比效果。原文
11:04Google Gemini App@GeminiAppGoogle 的 Gemini Omni 模型展示了从屏幕视频输入到现实物理模拟的端到端能力。用户只需一个提示词,模型就能理解视频内容,应用物理规则并生成无缝的新运动。该功能将视频理解与物理仿真结合,为创意内容生成和交互式应用开辟了新可能。目前已在 X 平台开放试用,用户可分享自己的实验案例。AI产品Gemini Omni视频生成物理模拟Google创意工具推荐理由:视频创作者和 AI 应用开发者可以直接用 Gemini Omni 把屏幕内容变成物理模拟视频,省去传统 3D 建模和动画流程,值得一试。原文
10:12lmarena.ai@lmarena_ai精选78°阿里Wan团队开发的Wan2.7-t2v-2026-04-25模型在Text-to-Video Arena中排名第三。该模型不仅是一个视频生成器,更是一套导演级工具套件,支持通过文本、图像、音频和视频进行多模态控制,可定制多达5个角色参考输入和语音配置,并具备视频编辑、克隆、重风格化、续写等全栈创作能力。在视觉保真度、运动稳定性和提示遵循方面有持续改进。这一成绩标志着中国团队在AI视频生成领域的重要突破。AI产品视频生成多模态控制阿里Wan导演套件角色定制推荐理由:阿里Wan2.7把视频生成从单一工具升级为导演套件,做视频创作、影视后期或AI内容生产的团队可以直接拿来用,多模态控制和角色定制功能尤其实用。原文
02:18Decoder@Matthias BastianGoogle 修复了 Gemini 应用中的一个 Bug,该 Bug 导致仅上传一两个 Omni 视频就消耗完整个使用配额。修复后,Ultra 会员的视频生成次数翻倍,且失败的请求不再计入配额。Google 还计划增加其他使用情况的透明度。这一更新解决了用户因配额快速耗尽而无法正常使用的问题。AI产品GeminiBug修复配额优化视频生成Ultra会员推荐理由:Gemini 重度用户终于不用再为几个视频就耗尽配额而烦恼了,Ultra 会员还能获得双倍生成次数,建议立即更新应用体验。原文
00:08AK@_akhaliq精选minWM是一个全栈开源框架,专门用于构建实时交互式视频世界模型。该框架提供了从模型设计到部署的完整工具链。开发者可以利用minWM创建能够实时响应输入的环境模拟。AI模型minWM世界模型视频生成开源框架推荐理由:开源实时视频世界模型框架原文
11:42Ate-a-Pi@svpino72°一位技术博主分享了一种新颖的视频生成模型训练方法,团队没有使用大型互联GPU集群,而是用多个小型、独立的GPU集群分别训练不同的“专家”模型。这些专家模型在训练时无需通信,训练完成后通过一个智能路由器在推理时动态组合,协同工作。这种方法降低了硬件门槛,且效果出色。论文链接已附,值得技术爱好者深入阅读。技巧视频生成分布式训练专家模型推理路由论文推荐理由:这种分布式训练思路颠覆了传统大模型训练范式,做模型训练或视频生成的开发者可以看看论文,或许能启发新的低成本训练方案。原文
11:07arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang精选浙江大学团队提出 Archon,一个完全预训练的统一多模态模型,用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构,统一了七种模态,并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题,Archon 引入了一种内存高效的语义视频重参数化方法,实现 4 倍 token 压缩同时保留精细动态,并配合语义驱动的视频扩散解码器。此外,提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理,提升了生成保真度和可控性。实验表明,Archon 在多种数字人生成任务上达到或超越现有水平。论文数字人多模态模型视频生成自回归模型token压缩推荐理由:做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了,不用再拼凑多个模型,做沉浸式体验的开发者可以直接参考其架构。原文
11:00岚叔@lufzzliz小云雀(XiaoYunQue)推出了自己的Agent Skill功能,比同类产品晚了约半年。该功能每天赠送60积分,足够生成一个约12秒的Seedance 2.0视频。用户可结合Prompt仓库,实现每日自动生成小视频。同时,作者透露其仓库提示词已增至429条精选,并让Claude分析了130个YouTube视频,进一步增强了能力。AI产品小云雀Agent Skill视频生成Seedance 2.0Prompt仓库推荐理由:对AI视频生成和自动化创作感兴趣的团队,可以试试小云雀的Agent Skill搭配Prompt仓库,每天白嫖一个视频,适合做内容实验或日常素材积累。原文
10:04Runway ML@runwaymlRunway 推出了 MCP(Model Context Protocol)服务,允许用户将 Runway 的图像和视频生成能力直接集成到 Claude、ChatGPT、Cursor、Replit 等主流 AI 平台中。该服务支持 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等先进模型,用户无需切换工具即可在原有工作流中生成高质量内容。连接过程仅需数秒,大幅降低了 AI 视频创作的门槛。此举标志着 Runway 从独立工具向平台化生态的转变,为开发者和创作者提供了更灵活的内容生成方式。AI产品RunwayMCP/工具视频生成图像生成AI 集成10 个信源在谈推荐理由:Runway MCP 让视频生成能力直接嵌入你日常使用的 AI 助手和开发环境,做内容创作或 AI 应用的团队可以秒级接入,省去切换工具的麻烦,值得一试。原文
09:50Amjad Masad@amasadRunway 推出 MCP 协议支持,允许用户在 Claude、ChatGPT、Cursor、Replit 等主流 AI 工具中直接调用 Runway 的模型生成图像和视频。支持的模型包括 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等。用户只需在代理中连接 MCP 即可使用,无需切换平台。这大幅降低了 AI 视频创作的门槛,让开发者和创作者能在工作流中无缝集成生成能力。AI产品RunwayMCP/工具视频生成图像生成Replit10 个信源在谈推荐理由:做 AI 视频或图像生成的开发者,终于可以在 Replit/Claude 里直接调用 Runway 的顶级模型,不用来回切换工具,建议试试 MCP 连接。原文
03:53NVIDIA AI@NVIDIAAI83°Hao AI Lab 开源了 FastVideo Dreamverse 项目,将视频生成速度大幅提升。此前在 8 张 Blackwell GPU 上生成 5 秒视频需约 25 秒,现在单张 Blackwell GPU 仅需 4.2 秒。该技术基于 LTX-2 模型,可在单张 NVIDIA B200 GPU 上 7 秒生成 30 秒 1080p 视频。项目已完全开源,包含代码和博客说明。AI产品视频生成开源/仓库NVIDIA B200LTX-2实时渲染推荐理由:视频生成速度从分钟级降到秒级,做 AI 视频创作和实时交互的团队可以直接用开源方案,大幅降低硬件门槛。原文
10:52Pandaily@contact@pandaily.com (Pandaily)精选美团发布LongCat-Video-Avatar 1.5版本,这是一个开源的数字人视频生成框架。该框架在口型同步精度上达到最先进水平,只需8步推理即可生成逼真视频。AI模型LongCat-Video-AvatarMeituan数字人视频生成开源模型1 个信源在谈推荐理由:8步推理生成逼真数字人原文
08:20岚叔@lufzzliz精选本文介绍了如何将 Gemini Omni 用作视频导演工具,核心思路是从描述画面升级为控制系统。Google AI 提供了 5 种 Prompt 方法:调用真实世界知识、控制文字渲染、像摄影师一样写镜头、局部迭代修改、动态修改动作。文章给出了具体的 Prompt 骨架和镜头词库,帮助用户像导演一样控制世界知识、主体动作、镜头语言、文字系统、时间节奏和迭代约束。这种方法让视频生成更精准、可迭代,适合内容创作者和视频制作者直接使用。AI产品Gemini Omni视频生成Prompt 工程导演控制内容创作推荐理由:做视频生成的内容创作者终于不用靠堆砌形容词碰运气了——这套导演式 Prompt 方法让你像控制分镜一样控制输出,建议直接套用文中的镜头词库和骨架试试。原文
22:56NVIDIA AI@NVIDIAAINVIDIA AI 官方账号发布了一段由 Julia Turc 制作的关于“世界模型”的讲解视频。视频澄清了世界模型与视频生成的区别,探讨了其超越“AI 垃圾”的潜力,并幽默回应了 Yann LeCun 的争议。该视频旨在帮助观众理解这一当前 AI 领域最热门但最模糊的概念之一。AI模型世界模型NVIDIA视频生成AI 科普Yann LeCun2 个信源在谈推荐理由:世界模型是当前 AI 最模糊的概念之一,这个视频帮你理清它与视频生成的区别,想搞懂 AI 前沿方向的建议点开。原文
12:23arXiv cs.LG@Ali Rouzbayani, Bidhan Roy, Marcos Villagra, Zhiying Jiang精选72°巴黎 2.0 是首个通过去中心化计算预训练的视频生成模型,解决了去中心化训练中时间连贯视频生成的难题。相比相同算力预算下的集中式模型,它在低分辨率文本到视频任务中将 FVD 从 561.04 降至 279.01,提升约 2 倍,同时提高了 CLIP 文本-视频相似度和美学评分。该模型基于巴黎 1.0 的去中心化扩散模型架构,无需单一 GPU 集群即可完成训练。这项工作证明了去中心化训练在视频生成领域的可行性,为降低大规模模型训练门槛提供了新路径。论文视频生成去中心化训练扩散模型开源/仓库Paris 2.0推荐理由:去中心化训练让视频生成模型不再依赖昂贵 GPU 集群,做视频生成或分布式训练的团队可以关注这个开源方案,直接降低算力成本。原文
11:34IT之家(博客/媒体)76°小米汽车发布了全新的世界模型框架 Xiaomi Auto World Model,首次将三维重建与视频生成深度耦合,打破了行业长期将两者独立的技术路线。该框架通过重建提供几何锚点、生成填补未观测场景,实现了高稳定性、高一致性和高真实性,在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA。目前该模型已在小米汽车的合成数据生成、仿真测试和智能座舱辅助驾驶学堂三大场景落地,交付了超过 10 万 clips 高质量合成数据。这一技术路径有望推动辅助驾驶从“场景感知”向“认知推演”的高阶形态跃迁。AI产品世界模型自动驾驶三维重建视频生成小米汽车推荐理由:小米汽车把世界模型的两条路线拧成一股绳,解决了重建缺想象、生成易漂移的行业难题。做自动驾驶感知或仿真的团队,建议看看他们的论文和技术主页,或许能启发新的技术路径。原文
11:47美团技术团队@美团技术团队美团开源了 LongCat-Video-Avatar 1.5,这是一款从 SOTA 迈向商业级应用的数字人视频模型。它在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面提升,能稳定输出高质量内容。该模型解决了数字人视频在复杂商业场景中不自然、不稳定、成本高的问题,让数字人从实验室走向真实应用。开源版本可供开发者直接使用,推动数字人视频生成技术的普及。AI模型数字人视频生成开源/仓库唇形同步美团推荐理由:做数字人视频生成或虚拟主播的团队,终于有了一个能直接商用的开源模型——唇形同步和长视频稳定性提升明显,建议试试 LongCat 1.5 来降低制作成本。原文
16:36阿里云 Alibaba Cloud@alibaba_cloud5月26日,Picsart视频产品主管Narek Hayrapetyan将在新加坡金沙会展中心分享多模态AI如何彻底改变视觉创作。活动由阿里云主办,聚焦AI在图像和视频生成中的实际应用。参与者可现场了解多模态模型如何提升创作效率。行业多模态视频生成大模型阿里云推荐理由:听Picsart高管讲多模态创作原文
04:21NVIDIA AI@NVIDIAAI精选NVIDIA 推出 LongLive-2.0,支持生成 720p 分辨率的长视频。该模型在多镜头序列中保持主体和背景一致性,并能在视频分块边界处切换提示词。相比前代,LongLive-2.0 在长视频连贯性和用户控制性上有所提升。AI模型LongLive-2.0NVIDIA视频生成长视频2 个信源在谈推荐理由:NVIDIA 新模型能生成长视频还保持一致性原文
14:37IT之家(博客/媒体)76°美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。美团表示,数字人视频生成正从展示效果走向真实使用,希望开源能成为可验证、可改进、可共建的技术基座。AI模型数字人视频生成开源/仓库美团LongCat-Video-Avatar推荐理由:数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成,效率提升 15 倍,做虚拟主播、在线教育、客服视频的团队可以直接拿来用,省去大量渲染时间。原文
12:29pandaily@contact@pandaily.com (Pandaily)oiioii 是一个新兴的视频生成平台,提供超过 150 种视频动画风格,旨在满足创作者对特定艺术风格的控制需求。该平台在视频智能体时代推出,强调风格多样性和定制化,帮助用户从文本或图像生成具有独特视觉效果的视频。这一举措反映了 AI 视频生成领域从通用模型向专业化、风格化方向发展的趋势。AI产品视频生成动画风格创作者工具oiioiiAI 视频推荐理由:对于追求视频艺术风格多样性的创作者,oiioii 提供了超过 150 种动画风格,解决了通用模型风格单一的问题。做短视频、广告或动画的团队可以直接尝试,找到适合项目的独特视觉语言。原文
07:53AI Will@FinanceYF5Google 发布了名为 Gemini Omni 的新模型,能够从任意输入(如视频)生成任意内容。该模型首先支持视频输入,类似“Nano Banana”但针对视频场景。目前已在 Gemini App、Flow 和 YouTube 中可用,API 支持即将推出。这标志着多模态 AI 能力的重大扩展,让用户能更灵活地创作和交互。AI模型Gemini Omni多模态视频生成GoogleAI模型推荐理由:多模态 AI 又进一步——Gemini Omni 从视频直接生成内容,做视频创作或内容生产的团队值得关注,API 开放后可以直接集成到工作流中。原文
02:34Runway ML@runwayml精选Runway推出Aleph 2.0版本,新增单帧编辑功能。用户可以在视频中编辑某一帧,预览更改效果,然后Aleph 2.0自动将该编辑传播到整个视频。该功能已在新的Edit Studio网页版上线。AI产品RunwayAleph视频编辑帧编辑视频生成推荐理由:Runway的Aleph 2.0能让你改一帧全片跟着变原文
15:20AI Will@FinanceYF5Google 发布了全新模型 Gemini Omni,能够根据任意输入(如文本、图像、音频)生成任意输出内容,首先支持视频生成。该功能将集成到 Gemini App、Flow 和 YouTube 中,API 支持即将推出。Omni 被视为“Nano Banana”的视频版,标志着多模态生成能力的重大突破。这一进展将极大简化内容创作流程,尤其对视频创作者和开发者意义重大。AI产品Gemini Omni多模态生成视频生成GoogleAPI推荐理由:多模态生成从文本扩展到视频,做内容创作或视频开发的团队可以直接在 Gemini App 和 YouTube 中体验,建议第一时间试用。原文
15:14marktechpost@Asif Razzaq精选字节跳动智能创作实验室推出Lance,一个原生统一多模态模型,仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4,在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源,代码和权重已在GitHub发布。AI模型LanceByteDance多模态视频生成开源模型推荐理由:3B参数打通图视频理解生成原文
11:41快手可灵 Kling@Kling_AIKling AI 在戛纳电影节上展示了其参与的全 AI 生成电影项目 RAPHAEL。该片由 Mateo AI Studio 与韩国 MBC C&I 的 AI 内容实验室合作开发,计划于 2026 年院线上映。项目全程使用 Kling AI 的视频模型来生成独特视觉效果,旨在证明纯 AI 电影制作的工业可行性,并推动 AI 原生影院电影的新趋势。AI产品Kling AIAI 电影视频生成戛纳影视制作推荐理由:这是 AI 视频生成从短片走向长片院线电影的关键一步,做影视制作、AI 内容创作的团队值得关注——它展示了 AI 工具在工业级项目中的实际落地能力。原文
08:01Andrew Ng@AndrewYNgAndrew Ng 宣布与 Google Cloud 合作推出新课程,教授如何构建能生成图像和视频的 AI 智能体。课程重点在于让智能体自我评估输出并迭代改进质量,涵盖三种评估技术:图像-文本相似度评分、LLM 裁判按品牌一致性等自定义标准评分、以及结构化评分表。学员将学习图像和视频提示工程,构建将品牌指南转化为 UI 模型的图像智能体,以及规划多场景解说视频并同步音频的视频智能体。该课程面向希望探索 AI 智能体在视觉内容生成领域应用的开发者。AI产品智能体图像生成视频生成评估技术Google Cloud推荐理由:Andrew Ng 的课程一向实用,这次聚焦图像/视频生成智能体这个少有人深入的方向,做多模态或内容生成的开发者可以直接学起来,掌握让智能体自我迭代的关键技巧。原文