12:37Black Forest Labs (FLUX)@bfl_ml精选Black Forest Labs 创始人 Andi Blatt 在斯坦福 CS153 课程中,与 Anjney Midha 对谈视觉生成模型的演进路径。他回顾了从 GANs 到扩散模型再到 FLUX 的技术跃迁,强调从不可控到一致、可控视觉输出的关键突破。Blatt 还指出“具备行动能力的视觉系统”是下一代 AI 的重要方向,意味着视觉模型不再只是生成图像,而是能理解并驱动交互。这场分享为理解当前视觉 AI 前沿提供了技术脉络和产业视角。AI模型视觉生成FLUX扩散模型GANs斯坦福推荐理由:Blatt 把视觉生成从 GANs 到 FLUX 的演进脉络讲透了,做图像生成或视觉 AI 的开发者能从中看到技术拐点,值得花 10 分钟听一下。原文
18:51AI Will@FinanceYF5有用户故意给 Claude Fable 5 出难题,要求生成墨水像流体一样融合的视觉效果。原本以为模型会翻车,但 Claude Fable 5 毫无压力地直接完成了任务。这一结果展示了 Claude Fable 5 在复杂视觉生成任务上的强大能力,尤其是对流体动力学和艺术效果的模拟。对于从事创意设计、动画或视觉特效的开发者来说,这是一个值得关注的进展。AI模型Claude Fable 5流体模拟视觉生成创意设计AI模型10 个信源在谈推荐理由:Claude Fable 5 在复杂流体效果上的表现令人惊喜,做创意设计和视觉特效的团队可以直接用它来快速原型验证,省去手动调试的麻烦。原文
17:54AI Will@FinanceYF5Anthropic 的 Claude Fable 5 模型在 high 模式下,仅凭「渲染一个黑洞」的提示词,生成了令人惊叹的黑洞渲染视频。该视频展示了模型在视觉生成领域的强大能力,引发了社区广泛讨论。这一成果凸显了 Anthropic 在 AI 多模态生成方面的领先地位,为创意工作者提供了新的工具。AI模型Claude Fable 5Anthropic视觉生成视频渲染多模态10 个信源在谈推荐理由:做视觉创意或 AI 生成内容的团队,Claude Fable 5 的渲染能力值得一试,一个提示词就能出高质量视频。原文
01:21Fei-Fei Li@drfeifei斯坦福大学教授李飞飞团队推出GPIC(Giant Permissive Image Corpus),这是一个专为大规模生成模型设计的视觉生成基准数据集。该数据集包含1亿对VLM标注的图文训练对和100万对基准测试对,总计约28万亿像素。所有数据均完全开放用于研究和商业用途,并集中托管。GPIC旨在解决现有数据集在规模、许可和标注质量上的不足,为视觉生成领域提供标准化评估平台。论文视觉生成基准数据集GPIC李飞飞开放许可推荐理由:做视觉生成模型的研究者终于有了一个大规模、开放许可的标准化基准,可以直接用来训练和评估模型,省去自己收集和清洗数据的麻烦。原文
11:06arXiv cs.AI@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei精选72°斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。论文视觉生成数据集开放许可图像生成斯坦福推荐理由:做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集,不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。原文
19:00阿里云 Alibaba Cloud@alibaba_cloud阿里云在#DiveIntoYourWorld活动中展示了创作者利用AI构建的多个项目。这些项目涵盖了艺术、设计和交互体验,展示了AI在创意领域的应用潜力。活动旨在鼓励开发者探索AI与创意的结合,推动AI工具的普及。具体项目包括AI生成的视觉作品和互动装置,体现了AI如何赋能创作者。AI产品阿里云AI创作创意工具开发者活动视觉生成推荐理由:对AI创意应用感兴趣的创作者和开发者,可以从中获取灵感,看看别人如何用阿里云AI工具做出有趣的项目,值得点开探索。原文
14:28arXiv cs.AI@Songsong Yu, Yuxin Chen, Ying Shan, Yanwei Li精选统一多模态模型(UMMs)试图在单一架构中整合视觉理解与视觉生成,但现有训练范式将两者解耦,导致表征空间错位。本文首次系统研究生成式后训练,发现高层语义任务(如图像分割)可作为最优代理,通过提供结构语义来增强视觉感知和生成布局保真度。作者提出语义生成调优(SGT)范式,利用分割作为生成代理对齐多模态能力。机制分析表明SGT改善了特征线性可分性和视觉-文本注意力分配。实验证明SGT在主流基准上持续提升多模态理解和生成保真度。论文统一多模态模型生成式后训练图像分割视觉理解视觉生成推荐理由:做多模态模型训练的团队终于有了一个能同时提升理解和生成的后训练方法——SGT用分割任务对齐表征空间,比解耦训练更高效,做视觉AI的开发者可以直接参考代码实现。原文