全部 AI 动态 · AI 热点

5月28日

08:59

marktechpost@Asif Razzaq

精选

Sakana AI 提出 DiffusionBlocks 框架，将残差网络中的每一层更新解释为逆向扩散去噪步骤，从而将网络分解为多个独立可训练的块。这种方法允许每个块单独训练，无需端到端反向传播，降低了训练复杂度和内存需求。实验表明，DiffusionBlocks 在图像生成任务上达到与标准残差网络相当的性能，同时训练效率更高。该工作为扩散模型与残差网络的结合提供了新思路，有望推动大规模模型的分布式训练。

论文扩散模型残差网络块式训练 Sakana AI 图像生成

推荐理由：Sakana AI 这个框架解决了残差网络训练中梯度回传的瓶颈，做大规模生成模型或分布式训练的团队值得关注——它让每个模块可以独立优化，直接降低显存和通信开销。

原文

5月27日

14:14

14:14IT之家（博客/媒体）

微软研究院发布 MAI-Image-2.5，这是其 MAI-Image 系列最强图像生成模型，在 Arena 文生图榜单升至第三。该模型重点增强了文字渲染能力，可胜任信息图、海报、包装等需要准确呈现文字的任务，同时在风格化插画、商业图像和视觉推理方面表现更稳定。用户已可在 Arena 体验，未来两周内将上线 MAI Playground 与 Foundry。

AI模型微软 MAI-Image-2.5 图像生成文字渲染 Arena

推荐理由：做设计、营销或内容创作的团队终于有了更靠谱的商用级生图工具——文字渲染和视觉推理的提升让海报、包装这类需求不再翻车，建议直接去 Arena 试效果。

原文

14:05

14:05IT之家（博客/媒体）

PrismML 发布 Bonsai Image 4B 系列图像生成模型，包含 1-bit 和 Ternary 两个版本，专为本地设备优化。该模型基于 LUX.2 Klein 4B 构建，通过二值/三值权重大幅压缩体积，1-bit 版 Transformer 仅 0.93GB，内存占用降至 1.5GB。在 iPhone 17 Pro Max 上生成 512×512 图像仅需 9.4 秒，Mac M4 Pro 上约 6 秒，速度比全精度模型快 5.6 倍。质量方面，Ternary 版在 1.21GB 体积下保留约 95% 的准确性，1-bit 版在不足 1GB 下保留约 88%。这标志着高质量图像生成模型首次在手机上实现实时可用。

AI模型图像生成模型压缩本地部署 Bonsai Image 4B iPhone

推荐理由：手机端终于能跑正经的图像生成模型了，做移动端 AI 应用或创意工具的开发者可以直接在 iPhone 上体验，9.4 秒出图的速度已经可用。

原文

13:50

13:50IT之家（博客/媒体）

精选72°

英伟达团队发布 PiD（像素扩散解码器）图像生成技术，将潜在解码与上采样合并为一个生成模块，在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建，加入轻量级 ControlNet 适配器，并通过 DMD2 蒸馏将推理步数压缩至 4 步，配合早停机制兼顾速度与质量。相比级联式扩散超分方案，端到端延迟最多快 5.9 倍，视觉保真度更优。该技术兼容传统 VAE 和语义潜变量（如 SigLIP、DINOv2），具备较强通用性。

AI模型英伟达 PiD 图像生成像素扩散解码器高分辨率解码

推荐理由：英伟达 PiD 解决了高分辨率图像生成中解码器速度慢、显存占用高的痛点，做 AI 图像生成或超分应用的开发者可以直接在消费级显卡上跑通，值得关注。

原文

11:18

lmarena.ai@lmarena_ai

MAI-Image-2.5 是一款新的图像生成模型，将于下周在 MAI Playground 和 Foundry 平台上线。目前该模型已在 Arena 上提供公开早期访问，用户可以通过 arena.ai/image 链接体验。这一发布意味着开发者可以提前试用并评估模型能力，为后续集成做准备。

AI产品 MAI-Image-2.5 图像生成 Arena 早期访问 AI 平台

推荐理由：图像生成领域又添新选择，做 AI 图像应用或内容创作的开发者可以趁早访问 Arena 体验 MAI-Image-2.5 的实际效果，抢占先机。

原文

07:22

berryxia@berryxia

PrismML 发布了 Bonsai Image 4B 扩散模型的 1-bit 和 Ternary 版本，分别仅 0.93GB 和 1.21GB，比全精度模型小 8.3 倍。在 Mac M4 Pro 上生成速度最高提升 5.6 倍，图像质量和提示词遵循度与更大模型相当。同时上线了 Bonsai Studio iOS App，支持 iPhone 本地离线生成图像，无需订阅或 API。这标志着高质量图像生成从云端真正走向个人设备。

AI模型端侧模型扩散模型图像生成模型压缩 PrismML

推荐理由：端侧生图终于不再妥协——Bonsai Image 4B 用极致压缩把云端级质量塞进手机，做移动端 AI 应用或离线创作工具的开发者可以直接在 iPhone 上试，无需联网和付费。

原文

5月26日

16:10

xAI@xai

72°

xAI 宣布 Grok Build 进入 Beta 阶段，面向所有 SuperGrok 和 X Premium+ 用户开放。该工具包含 Plan Mode（计划模式）、Imagine（图像与视频生成）以及 CLI（命令行界面）用于构建自动化和编排任务。用户可通过 x.ai/cli 开始使用。这标志着 Grok 从对话模型向开发平台扩展，为高级用户提供更强大的创作和自动化能力。

AI产品 Grok xAI CLI/工具自动化图像生成

推荐理由：Grok 终于有了正经的开发工具——Plan Mode 和 CLI 让自动化任务变得可行，X Premium+ 和 SuperGrok 用户可以直接上手试试，做 AI 工作流的开发者会感兴趣。

原文

11:45

arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

精选

本文提出通道级向量量化（CVQ），一种全新的图像标记化范式，将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ，作者构建了通道级自回归（CAR）模型，采用“下一通道预测”策略，模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明，CVQ在16K+码本大小下实现100%码本利用率，显著提升重建质量；CAR在DPG和GenEval指标上分别达到86.7和0.79，在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路，有望推动图像生成效率与质量的双重提升。

论文图像生成向量量化自回归模型文本到图像视觉细节

推荐理由：CVQ解决了传统VQ码本利用率低、细节丢失的痛点，做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化，生成质量更高。

原文

11:44

arXiv cs.AI@Shuhong Zheng, Aashish Kumar Misraa, Yu-Teng Li, Yu-Jhe Li, Igor Gilitschenski

主体驱动图像生成旨在根据文本指令生成保留给定主体身份的新图像。现有方法通常分别编码文本和参考图像，限制了跨模态推理能力并导致复制粘贴伪影。本文提出了一种新框架，通过将扩散模型与多模态大语言模型（MLLM）结合，并引入基于VAE的身份条件，实现了文本指令与身份保留的平衡。其中，双层级聚合（DLA）模块用于融合MLLM的多层特征，多阶段去噪策略在推理时逐步平衡语义信息与细节身份。实验表明，该方法在主体驱动图像生成中优于现有方法，有效缓解了复制粘贴问题，并更符合人类偏好。

论文多模态大语言模型主体驱动生成扩散模型身份保留图像生成

推荐理由：做图像生成或AI绘画的开发者，这篇论文解决了主体身份保留与文本指令跟随的长期矛盾，提出的DLA模块和多阶段去噪策略可以直接参考，值得点开看看具体实现。

原文

5月25日

17:54

AI Will@FinanceYF5

精选

OpenAI 发布 ChatGPT Images 2.0，但核心不是图像模型，而是将图像视为一种语言，融入主干而非附加功能。Altman 强调从 GPT-3 直接跨越到 GPT-5，官方博客以「图像是语言，不是装饰」开篇，表明战略转向。这意味着图像生成与理解将深度集成到对话中，改变用户与 AI 交互的方式。

AI产品 ChatGPT 图像生成多模态 OpenAI 战略升级

推荐理由：OpenAI 把图像从附加功能提升为对话主干，做内容创作或产品设计的团队值得关注——这可能会改变你使用 AI 的方式。

原文

17:45

17:45IT之家（博客/媒体）

据彭博社记者马克·古尔曼报道，苹果计划在 iOS 27 系统中大幅提升其图像生成模型（用于 Genmoji 和 Image Playground）的画质。目前这些模型的成像效果平平，尤其是 Image Playground 与同类工具差距明显。苹果已优化自有模型，今年画质将显著改善，但不确定是否仍完全依赖设备本地运行。此外，Image Playground 将接入更多第三方 AI 图像生成模型，如谷歌的 Nano Banana 等，不再仅限 ChatGPT。这一升级有望缩小苹果与竞品在 AI 图像生成领域的差距。

AI产品苹果 iOS 27 图像生成 Genmoji Image Playground

推荐理由：苹果终于要解决 AI 图像生成画质拉胯的问题了，用 iPhone 做创意设计的用户今年可以期待 Genmoji 和 Image Playground 的质变，建议关注 iOS 27 的更新细节。

原文

5月23日

09:25

Ideogram@ideogram_ai

Ideogram 推出 MCP 服务，允许用户在 Claude、ChatGPT、Cursor 等聊天界面内直接生成图像、设计并训练自定义模型，无需切换工具。该服务将 Ideogram 的图像生成能力与 AI 助手的对话交互深度整合，使设计流程更流畅。对于需要快速产出视觉内容的团队，这大幅降低了工具切换成本。目前该 MCP 已支持多个主流 AI 平台，开发者可直接集成使用。

AI产品 MCP/工具图像生成设计智能体 Ideogram Claude

推荐理由：设计团队和内容创作者终于可以在聊天中直接出图、训练专属模型，省去来回切换工具的麻烦，做视觉输出的建议立刻试试。

原文

09:23

Ideogram@ideogram_ai

Ideogram 宣布其 MCP（模型上下文协议）功能已上线，用户可以在所有主流 AI 智能体中直接调用 Ideogram 的图像生成能力。官方提供了完整的设置指南，方便开发者快速集成。这意味着 AI 智能体现在可以原生调用 Ideogram 生成图像，无需切换工具，大幅提升工作流效率。对于依赖多智能体协作的团队，这是一个重要的能力扩展。

AI产品 MCP/工具图像生成智能体 Ideogram 集成

推荐理由：做 AI 智能体工作流的开发者可以直接集成 Ideogram 的图像生成能力，省去手动切换工具的麻烦，值得立即尝试。

原文

5月21日

10:48

eric zakariasson@ericzakariasson

精选

Cursor 创始人 Eric Zakariasson 分享了内部 Slack 自动化 @drawitpoorly 的诞生故事。该自动化利用 Slack MCP 获取用户头像，再通过图像生成工具将头像重绘成笨拙、潦草的涂鸦风格，并回复到 Slack 线程中。内部 PMF 验证成功后，团队将其推向外部。Cursor 现已支持在 Agents 窗口中创建和管理自动化，新创建的自动化在 7 天内可享 50% 折扣。

AI产品 Cursor Slack MCP 自动化图像生成内部工具

推荐理由：这个案例展示了如何用 Cursor 的自动化功能快速验证内部工具 PMF，做 Slack 集成或趣味 AI 应用的开发者可以直接抄作业。

原文

08:01

Andrew Ng@AndrewYNg

Andrew Ng 宣布与 Google Cloud 合作推出新课程，教授如何构建能生成图像和视频的 AI 智能体。课程重点在于让智能体自我评估输出并迭代改进质量，涵盖三种评估技术：图像-文本相似度评分、LLM 裁判按品牌一致性等自定义标准评分、以及结构化评分表。学员将学习图像和视频提示工程，构建将品牌指南转化为 UI 模型的图像智能体，以及规划多场景解说视频并同步音频的视频智能体。该课程面向希望探索 AI 智能体在视觉内容生成领域应用的开发者。

AI产品智能体图像生成视频生成评估技术 Google Cloud

推荐理由：Andrew Ng 的课程一向实用，这次聚焦图像/视频生成智能体这个少有人深入的方向，做多模态或内容生成的开发者可以直接学起来，掌握让智能体自我迭代的关键技巧。

原文

07:59

OpenAI@OpenAI (@OpenAI)

OpenAI 宣布 ChatGPT 每周生成超过 15 亿张图片，自 Images 2.0 发布以来用户使用量激增。研究员 Kenji Hata 与产品负责人 Adele Li 及主持人 Andrew Mayne 共同探讨了由此催生的新用例和趋势。这一数据表明 AI 图像生成已从实验性工具转变为高频日常应用，尤其在内容创作、营销和社交媒体领域。对于依赖视觉内容的创作者和团队，这标志着 AI 图像生成进入规模化实用阶段。

AI产品 ChatGPT 图像生成 Images 2.0 内容创作 AI 应用趋势

推荐理由：15 亿张/周的数据说明 AI 图像生成已不是玩具——做内容、营销、设计的团队该认真考虑把它纳入工作流了，点开看看别人都在怎么用。

原文

07:59

Midjourney@midjourney

Midjourney 今日发布小更新，为 V8.1 模型重新引入了 --no 标志（即反提示功能）。该功能曾在旧版本中存在，允许用户指定不希望出现在图像中的元素（如 --no people 可排除人物）。这一更新回应了用户对 V8 模型缺失该功能的反馈，现在已正式可用。对于需要精确控制图像内容的创作者来说，这是一个实用的工具。

AI产品 Midjourney 图像生成反提示 V8.1 --no 标志

推荐理由：Midjourney 用户终于等来了 V8 的反提示功能，做 AI 图像生成时想排除特定元素（比如人物、物体）的可以直接用 --no 参数，省去反复调整提示词的麻烦。

原文

07:59

Recraft@recraftai

Recraft 的 V4.1 Utility Pro 模型发布仅一周，就在 Design Arena 2026 图像生成器排行榜的图形设计类别中升至第7名，Elo 评分达1243。该模型与 LumaLabsAI 的 UNI-1.1 和 Black Forest Labs 的 FLUX.2 [flex] 处于同一性能水平，使 Recraft 跻身全球前五的图像生成实验室。目前 Recraft 已有两个模型上榜，团队表示这是重大突破。用户可在 Recraft Studio 中直接体验。

AI产品图像生成 Recraft V4.1 Utility Pro Design Arena 排行榜

推荐理由：图形设计师和 AI 创作者又多了一个高性价比的图像生成选择——Recraft V4.1 Utility Pro 一周就冲进前七，性能与头部模型持平，建议试试看能不能替代你现在的工具。

原文

00:14

rohanpaul_ai@rohanpaul_ai

76°

中国 AI 实验室商汤开源了 SenseNova U1，这是一个统一的多模态模型，能在单一模型中理解、推理并生成图像和文本。其架构去除了传统的视觉编码器和变分自编码器，在共享表示空间中处理图像和语言，减少了模块间切换和信息损失，提升了生成一致性。该模型在生成信息图、指南、海报、漫画等密集视觉内容时表现出色，据客户基准测试，生成信息图的速度约为 Qwen-Image-2.0 / Seedream-4.5 的两倍，且质量相当。

AI模型商汤 SenseNova U1 多模态模型开源/仓库图像生成

推荐理由：商汤的架构创新解决了多模态模型常见的模块间信息丢失问题，做视觉内容生成或信息图设计的团队可以直接用这个开源模型，生成效率翻倍值得一试。

原文

5月19日

12:10

OpenRouter@OpenRouterAI

xAI 的 Grok 创意套件新增三个模型，已在 OpenRouter 平台上线。Grok Imagine Image Quality 支持照片级图像生成与编辑；Grok Imagine Video 可从文本、图像或参考素材生成短视频；Grok Voice TTS 1.0 提供 5 种语音、覆盖 20 多种语言。这些模型扩展了 Grok 在图像、视频和语音合成方面的能力，为开发者和创作者提供了更多选择。

AI产品 Grok 图像生成视频生成语音合成 OpenRouter

推荐理由：xAI 一口气推出图像、视频、语音三款模型，做内容创作或 AI 应用的开发者可以直接在 OpenRouter 上调用，省去部署成本，建议试试。

原文

02:19

rohanpaul_ai@rohanpaul_ai

76°

HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image，声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer，无需 VAE 和文本编码器，直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理，能先理解用户意图再生成，在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。

AI模型 HiDream HiDream-O1-Image 图像生成 Transformer 开源/仓库

推荐理由：HiDream 用 8B 参数挑战了传统扩散架构的统治地位，做图像生成或研究的开发者值得关注——它可能改变你对模型效率与架构的认知。

原文

5月18日

20:06

Recraft@recraftai

Recraft AI 发布 V4.1 模型，并与 GPT Image 2 High 进行直接对比。同一提示词下，两个模型在氛围、构图、色彩处理和细节表现上差异显著。Recraft V4.1 在艺术风格和细节丰富度上表现突出，而 GPT Image 2 High 更注重写实和一致性。该对比展示了不同 AI 图像生成模型在创意输出上的独特取向，对设计师和内容创作者选择工具具有参考价值。更多对比结果可在 Recraft 博客中查看。

AI产品 Recraft V4.1 GPT Image 2 High 图像生成模型对比创意工具

推荐理由：做视觉设计和内容创作的团队，选模型前先看对比——同一提示词下风格差异巨大，直接帮你判断哪个更适合你的项目。

原文

12:06

Paul Couvert@itsPaulAi

HiDream-O1-Image 作为 Nano Banana 的开源替代品正式发布，采用 MIT 许可证，支持文本到图像、图像编辑、故事板生成等功能。该模型在文本渲染方面表现突出，提供 Hugging Face 模型和在线演示。这是开源社区在图像生成领域的重要进展，为开发者和创作者提供了更自由的选择。

AI模型开源/仓库图像生成文本渲染 HiDream-O1-Image Nano Banana

推荐理由：图像生成领域终于有了 MIT 许可证的开源强模型，做创意工具或需要文本渲染的开发者可以直接上手试试。

原文

12:05

Paul Couvert@itsPaulAi

HiDream-O1-Image 是一款开源图像生成模型，在多数使用场景下表现出色，足以替代闭源替代品。它在照片级真实感、长文本渲染、图像编辑（添加/替换/移除元素）以及提示词遵循度方面均有优异表现。其 8B 变体在所有开源基线中领先，性能与 Nano Banana 相当，而 200B 版本则达到当前最优水平。该模型为开发者提供了高性价比的闭源替代选择。

AI模型图像生成开源模型 HiDream-O1-Image 照片级真实感图像编辑

推荐理由：做图像生成和编辑的开发者终于有了一个能打的开源模型——HiDream-O1-Image 在多数场景下可替代闭源方案，8B 版本性能媲美 Nano Banana，建议直接上手试试。

原文

12:05

Paul Couvert@itsPaulAi

72°

HiDream AI 与 Vivago AI 联合开源了 HiDream 图像生成模型，该模型在性能上可与闭源商业模型竞争。模型权重、技术报告和在线试用空间均已发布在 Hugging Face 和 GitHub 上。开源社区对此反应热烈，认为这是开源图像模型的重要里程碑。用户可以直接下载模型或在线体验，无需等待。

AI模型 HiDream 图像生成开源/仓库 Hugging Face AI模型

推荐理由：开源图像模型终于有了能打闭源方案的选手，做图像生成或 AI 绘画的开发者可以直接下载模型或在线试用，值得立刻体验。

原文

5月16日

20:04

OpenRouter@OpenRouterAI

Recraft AI 在 OpenRouter 上发布了 V4.1 系列六款新图像生成模型，包括主打高美学的 V4.1 和 V4.1 Pro、专为 SVG 插画设计的 V4.1 Vector 和 V4.1 Pro Vector，以及面向产品图像的 V4.1 Utility 和 V4.1 Utility Pro。新模型在照片真实感、渐变平滑度和短提示命中率上均有显著提升，用户无需过多提示工程即可获得高质量结果。这一更新为设计师和开发者提供了更多专业选择，可直接通过 OpenRouter API 调用。

AI产品图像生成 Recraft OpenRouter SVG 产品设计

推荐理由：Recraft V4.1 系列覆盖了从高美学到矢量插画、产品图等多个细分场景，做设计或 AI 应用的团队可以直接在 OpenRouter 上试用，短提示效果提升明显，值得一试。

原文

19:31

Recraft@recraftai

Recraft AI 在 X 上发布了其 V4.1 模型与 Midjourney V8.1 的对比评测。使用完全相同的提示词，两个模型在构图、情绪、纹理和细节上展现出截然不同的创意选择。该对比展示了当前顶级 AI 图像生成模型在风格和美学上的差异，帮助用户理解不同模型的擅长领域。更多与其他模型的对比结果可在 Recraft 的博客中查看。

AI产品 Recraft V4.1 Midjourney V8.1 图像生成模型对比创意设计

推荐理由：做 AI 视觉设计或内容创作的团队，可以通过这个对比快速判断哪个模型更符合自己的审美偏好，值得点开看看差异。

原文

19:03

Guillermo Rauch@rauchg

Vercel CEO 展示新工具 ai-cli，允许用户在终端中直接渲染图片，例如通过 `npx ai-cli image 'a vercel ai sdk diagram'` 命令。该工具安装简单（`npm i -g ai-cli`），并可通过 Vercel AI Gateway 即时访问所有图像、视频和文本模型。这一功能将终端变为多模态交互界面，简化了开发者的工作流。

AI产品 Vercel AI CLI 终端工具图像生成 AI Gateway

推荐理由：终端直接渲染图片解决了开发者频繁切换工具查看 AI 生成内容的痛点，做 AI 应用或 CLI 工具的团队值得一试，安装即用。

原文

5月14日

14:51

Midjourney@midjourney

73°

Midjourney 宣布开始测试其 V8 模型的早期版本，面向社区开放。新模型在提示跟随能力上大幅提升，生成速度提高了 5 倍，并支持原生 2K 分辨率模式。此外，文本渲染得到改进，个性化、风格参考和情绪板功能也达到最佳性能。这标志着 Midjourney 在图像生成质量和效率上的重要升级。

AI产品 Midjourney V8模型图像生成 2K分辨率文本渲染

推荐理由：Midjourney V8 的 5 倍速度和原生 2K 模式对设计师和创意工作者是直接利好，提示跟随的改进能减少反复调参的烦恼，建议有 AI 绘图需求的用户第一时间体验。

原文

13:36

xAI@xai

xAI 宣布其 API 上线了图像生成质量模式（Image Generation Quality Mode），该模型已在 Grok 上驱动超过 3 亿张图像的生成。新模式提升了图像的真实感、文本渲染能力以及创意控制，特别面向商业专业人士。这意味着开发者现在可以通过 API 调用更高质量的图像生成能力，用于营销、设计等场景。

AI产品 xAI 图像生成 API 质量模式商业应用

推荐理由：xAI 把 Grok 上验证过的图像生成能力开放给 API 用户，做商业设计或内容生成的团队可以直接集成，提升出图质量和可控性。

原文

5月12日

21:55

AK@_akhaliq

阿里发布Qwen-Image-2.0技术报告，介绍了新一代多模态图像生成模型。该模型在文本到图像生成、图像编辑和风格迁移等任务上表现出色，支持高分辨率输出和细粒度控制。报告详细阐述了模型架构、训练方法和性能评估，表明其在多项基准测试中达到领先水平。这对于推动多模态AI发展和实际应用具有重要意义。

论文多模态图像生成 Qwen 技术报告

推荐理由：Qwen-Image-2.0的发布展示了阿里在多模态生成领域的持续进步，为图像生成任务提供了新的基准和工具，值得相关从业者关注。

原文

17:19

歸藏(guizang.ai)@op7418

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

AI模型图像生成视频生成 GPT-image-2.0 Seedance 2.0 多模态

推荐理由：对于AI生成领域从业者，GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展，值得关注其在实际应用中的表现和潜在影响。

原文

00:01

岚叔@LufzzLiz

一位用户利用GPT Image 2生成角色参考图，展示同一角色的多角度姿态，包括正面特写、站姿、背对、蹲姿和跪姿。帖子强调在提示词末尾添加了十个字的关键词，并邀请读者猜测这些词。这体现了GPT Image 2在图像生成中的控制能力和创意边界探索。

AI产品图像生成 GPT Image 2 提示词工程多角度角色设计

推荐理由：此帖展示了如何通过提示词技巧扩展AI图像生成边界，对理解GPT Image 2的潜力有参考价值。

原文

5月11日

22:18

岚叔@lufzzliz

用户反映OpenAI的GPT image 2在生成某些图像时存在较多限制，导致特定内容难以生成。但发现通过Hermes或flowith等第三方工具仍可生成受限图像。用户计划进一步探索GPT image 2的生成尺度。这一现象表明不同工具对内容审核策略存在差异，可能影响用户选择。

AI产品图像生成 GPT image 2 内容审核工具对比

推荐理由：展示了当前AI图像生成工具在内容审核上的不一致性，对需灵活生成内容的用户有参考价值。

原文

22:17

岚叔@lufzzliz

用户使用仅13字提示词“电商详情页截图：介绍情趣内衣”，成功生成逼真图片，展示GPT Image 2的图像生成能力。该工具可快速产出符合电商场景的图片，评论区补充了日韩和欧美风格变体。此实验表明模型对简短模糊指令的响应质量高，可能降低电商内容创作门槛。

AI产品 GPT Image 2 图像生成电商提示词工程

推荐理由：该案例直观凸显GPT Image 2在电商视觉生成领域的潜力，对营销人员与内容创作者有实操参考价值，提示行业关注多风格适配能力。

原文

22:17

岚叔@lufzzliz

用户通过推特分享了对GPT Image 2的第三次测试，重点展示其生成高级时尚摄影图像的能力。输入提示词为“优雅的韩国女模特穿着淡粉色缎面吊带裙，在落地窗前摆出优雅的过肩姿势，黄金时段背光营造柔和光芒，Vogue韩国风格时尚摄影”。该测试对比了模型生成的左右两张图片，以呈现不同输出结果。这体现了GPT Image 2在生成专业级、高美学要求图像方面的潜力。

AI产品图像生成 GPT Image 2 时尚摄影 AI产品测试

推荐理由：该测试直观展示了GPT Image 2在时尚摄影领域的生成质量，对创意从业者和AI图像生成应用开发者具有参考价值，有助于评估模型在实际场景中的表现。

原文

22:17

百度 AI Baidu@Baidu_Inc

百度用其AI图像生成模型ERNIE-Image，将母亲节经典唠叨翻译成“真正含义”，并通过趣味图片展示。例如，“有空打电话”可能意味着“想你了”。该活动利用AI技术进行创意表达，旨在传递情感而非仅仅文字表面意思。百度借此展示其多模态AI能力，同时庆祝母亲节。

AI产品图像生成 ERNIE-Image 百度多模态情感化设计

推荐理由：此为百度营销活动，展示ERNIE-Image的创意应用。对行业而言，表明AI图像生成正从技术展示转向情感化、场景化的用户体验设计。

原文

22:16

AK@_akhaliq

MARBLE（Multi-Aspect Reward Balance for Diffusion RL）提出了一种新方法，旨在解决扩散模型强化学习中多个奖励信号之间的平衡问题。通过动态调整不同奖励方面的权重，该方法能在图像生成等任务中同时优化多个目标，如质量和多样性。论文展示了在多个基准测试上的改进效果，表明该方法能有效提升生成质量并减少模式崩溃。这对扩散模型的微调和可控生成具有实际意义。

论文扩散模型强化学习多目标优化图像生成

推荐理由：该方法直接回应了扩散模型RL中多目标优化的核心挑战，为提升生成质量和多样性提供了一种实用平衡策略。

原文

22:16

AK@_akhaliq

该研究提出了一种连续时间分布匹配方法，用于改进扩散模型的蒸馏效率。传统扩散模型需要多步采样，而该方法通过优化连续时间分布匹配损失，实现了仅需几步即可生成高质量样本。实验表明，该方法在图像生成任务上显著加速推理，同时保持生成质量，对实时应用场景具有重要意义。论文提供了理论分析和实验结果。

论文扩散模型蒸馏图像生成推理加速

推荐理由：该方法为扩散模型加速推理提供了新思路，可能降低生成式AI的部署成本，值得关注后续应用拓展。

原文

11:43

11:43arXiv cs.LG（学术论文）

STARFlow2提出了一种基于自回归归一化流（TarFlow）的统一多模态生成框架，用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流，并采用深度-浅层流设计和统一的FAE潜空间，实现了文本和视觉输出的缓存友好型生成。实验表明，STARFlow2在图像生成和多模态理解基准上表现强劲，证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题，为更自然的统一生成提供了新范式。

论文多模态自回归流图像生成统一模型文本-图像

推荐理由：STARFlow2展示了自回归归一化流在多模态统一生成中的潜力，为替代基于扩散的图像生成方法提供了新思路，对多模态模型的设计和效率优化有参考价值。

原文