视觉生成 · AI 话题观测

§ 01综述

近期视觉生成领域呈现出模型演进、能力惊艳、数据基建和统一范式四大趋势。

模型演进：Black Forest Labs 创始人分享了从 GANs 到 FLUX 的视觉模型演进历程，展示了生成式模型如何从对抗训练走向扩散与自回归范式。(原文标题: Black Forest Labs 创始人斯坦福分享：从 GANs 到 FLUX 的视觉模型演进)

能力惊艳：Claude Fable 5 在无需额外训练的情况下，渲染出墨水流体融合效果，另能生成黑洞视频细节丰富，被评论为“太强了”。(原文标题: Claude Fable 5 轻松实现墨水流体融合效果和 Claude Fable 5 渲染黑洞视频惊艳，Anthropic 太强了)

数据基建：GPIC 数据集发布，包含 1 亿对图文、28 万亿像素的开放许可图像，为视觉生成研究提供了大规模、高质量的基准资源。(原文标题: GPIC：1亿对图文数据集的视觉生成基准发布和 GPIC：28万亿像素的开放许可图像数据集，用于视觉生成)

统一范式：SGT（语义生成调优）提出一种方法，统一多模态模型的视觉理解与生成，减少了模型架构差异带来的碎片化。(原文标题: SGT：用语义生成调优统一多模态模型的视觉理解与生成)

当前焦点：Claude Fable 5 展示了高端视觉生成能力，但可及性有限；GPIC 数据集推动开源研究；SGT 等统一方法试图整合理解与生成。未来观察点包括：模型开源 vs 闭源的生态分化、大规模数据集对生成质量的真实提升效果，以及能否落地到低成本设备上。

§ 02相关报道07 条在档

§ 03邻近话题