全部 AI 动态 · AI 热点

6月30日

07:39

07:39IT之家（博客/媒体）

72°

谷歌宣布，Gemini应用的Nano Banana驱动个性化图像生成功能对全美免费用户开放。该功能基于用户授权连接的Gmail、谷歌相册、YouTube和谷歌搜索获取偏好。用户只需简单提示如“创作一幅包含我和个人爱好的插画”，Gemini即可自动判断元素并生成图像。用户可开启或关闭“个性化智能”，并自行选择Gemini可访问的应用。谷歌此前披露Gemini月活跃用户已突破7.5亿。

AI产品 Gemini Nano Banana 谷歌个性化图像生成

推荐理由：谷歌把Gemini的个性化生图免费开放了，它能根据你的相册和搜索记录自动生成贴合爱好的图像，不用写详细提示词了。

原文

04:20

techcrunch@Lauren Forristal

谷歌宣布，其Gemini聊天机器人的个性化AI图像生成功能现已向符合条件的美国免费用户开放。该功能允许Gemini根据用户兴趣及来自谷歌应用（如Gmail、日历）的数据生成定制图像。此举将原本仅限付费用户的功能扩展到免费层。用户可在对话中直接要求Gemini生成反映个人风格的图片。

AI产品 Gemini Google 图像生成个性化免费

推荐理由：谷歌把Gemini的个性化生图功能免费开放给美国用户了，能根据你存的数据生成专属图片，试试看。

原文

6月29日

15:41

@koltregaskes@koltregaskes

商汤推出了U1 Pro图像思考模型，该模型在图像生成能力上与GPT Image 2持平甚至更优。U1 Pro支持高达8K分辨率输出，专为设计场景优化。内部测试将于7月启动，之后计划公开发布。

AI模型 U1 Pro SenseTime GPT Image 2 图像生成推理模型

推荐理由：商汤新模型U1 Pro据说能和GPT Image 2比一比，还支持8K图，设计师7月就能内测了。

原文

13:49

Microsoft AI@MicrosoftAI

微软的 MAI-Image-2.5 在 Artificial Analysis 的文本到图像榜单中排名第2，图像编辑排名第3。该模型能对图像进行精确编辑，例如将雨窗模糊场景转换为清晰街景，同时保持物体一致性、光照、反射和场景几何。模型现已通过 Foundry API、MAI Playground 和 OpenRouter 提供使用。

AI模型 MAI-Image-2.5 Microsoft 图像生成图像编辑多模态

推荐理由：微软 MAI-Image-2.5 图像生成排第2、编辑排第3，还能把雨窗变清晰，想用去 Foundry API 或 OpenRouter 试试。

原文

10:09

arXiv cs.AI@Guanbo Huang, Jingjia Mao, Fanding Huang, Fengkai Liu, Xiangyang Luo, Yaoyuan Liang, Jiasheng Lu, Xiaoe Wang, Pei Liu, Ruiliu Fu, Ruqi Huang, Shao-Lun Huang

流匹配（Flow Matching）存在暴露偏差，现有缓解方法依赖静态约束。本文提出DEFAR框架，包含抗漂移修正（ADR）和频率补偿（FC）两个组件。ADR利用推理时漂移信号学习将偏离状态拉回目标方向，FC基于偏差自反馈权重增强缺失的低频成分。在CIFAR-10、CelebA-64、ImageNet-256/512上，DEFAR优于先前基线，且具有良好的可扩展性与推理鲁棒性。

论文 Flow Matching DEFAR 暴露偏差自修正图像生成

推荐理由：这篇论文让模型靠偏差自己修正偏差，DEFAR在CIFAR和ImageNet上都能超过之前的方案，还更稳。

原文

08:15

AK@_akhaliq

DiffusionBench是一个专门针对扩散变换器（Diffusion Transformers）的全面评估基准。它涵盖了生成质量、推理效率、模型鲁棒性等多个关键维度。该基准基于ImageNet等公开数据集提供了标准化测试协议。它为不同扩散变换器架构的性能比较建立了统一框架。

AI模型 DiffusionBench 扩散变换器评估基准图像生成

推荐理由：想了解不同扩散变换器到底谁更强？试试这个新基准DiffusionBench，评估维度很全，结果很直观。

原文

6月26日

18:00

AI Will@FinanceYF5

一位独立研究者（沃尔玛应届程序员）用单张RTX 3090 Ti、零经费完成两项扩散模型研究，被SIGGRAPH 2026录用。InfiniteDiffusion实现无限图像生成，支持随机访问、可复现、可并行、零存储。Terrain Diffusion是首个学习型程序化地形生成器，单卡速度比卫星飞行快9倍，仅需1.5GB显存。该研究已发布Minecraft mod，代码已开源。

AI模型 InfiniteDiffusion Terrain Diffusion 图像生成程序化地形生成开源模型

推荐理由：一个人用一张3090 Ti发SIGGRAPH，InfiniteDiffusion无限图像生成、Terrain Diffusion比卫星快9倍，代码开源，快去试试Minecraft mod。

原文

10:47

arXiv cs.LG@Wei Zhou, Xiongwei Zhu, Zelin Xu, Bo Dong, Lixue Gong, Yongyuan Liang, Meng Chu, Leigang Qu, Lingdong Kong, Wei Liu, Tat-Seng Chua

针对文本到图像（T2I）、局部编辑和全局编辑等能力难以统一且相互冲突的问题，论文提出DanceOPD框架。该框架基于流匹配模型，采用策略生成场蒸馏，将每个样本路由至对应能力场，并查询低噪声的学生诱导状态，用速度MSE目标训练。在T2I、编辑、真实性场吸收和CFG吸收等实验上，DanceOPD改善了多能力组合效果，增强了目标能力同时保持基准生成质量。

论文 DanceOPD 流匹配模型图像生成蒸馏多能力

推荐理由：这篇论文用DanceOPD把T2I、局部编辑和全局编辑统一到一个模型里，解决了相互干扰的问题，效果显著提升。

原文

02:54

Midjourney: Updates@Caleb

Midjourney 在 V8.1 的 draft mode 中新增 --sref random 参数，使用后一次可生成 24 张不同风格的图像。用户只需在提示词中加入 --draft（或点击闪电图标）进入草稿模式，再添加 --sref random 即可随机混合多种风格。该功能旨在帮助用户快速探索和发现喜欢的视觉风格，无需手动指定样式参考。

AI产品 Midjourney V8.1 draft mode 图像生成风格探索

推荐理由：想快速试不同画风？现在 Midjourney 草稿模式下加个参数，一次出 24 种随机风格，比手动换 sref 方便多了。

原文

00:54

techcrunch@Russell Brandom

前Databricks AI负责人创立新公司，声称其技术可将AI系统电力消耗降低1000倍。该公司首个产品是图像生成系统Un0，能复现传统AI模型的功能但能耗极低。该声称基于硬件与算法协同优化，但尚未有第三方验证数据。若属实，可能大幅降低大规模AI部署的运营成本。

行业 Databricks Un0 图像生成 AI能效

推荐理由：前Databricks AI老大搞了个新公司，说能让AI耗电降到原来的千分之一，他们先做了个图像生成系统Un0，如果真能兑现，那AI成本得崩盘。

原文

6月25日

16:06

16:06IT之家（博客/媒体）

精选

商汤科技正在研发代号U1 Pro的多模态模型，聚焦设计场景，对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头，属于日日新家族，预计7月启动内部邀请测试。支持8K分辨率输出，能实现设计-生成-评审长程循环。内部评测显示，相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。

AI模型商汤科技 U1 Pro GPT-Image 2 多模态图像生成

推荐理由：商汤新模型U1 Pro专攻设计，对标GPT-Image 2，内部评测更优，支持8K输出，7月内测。

原文

6月24日

23:23

OpenRouter@OpenRouterAI

OpenRouter 发布全新专用 Image API，支持类型化动态能力。该 API 统一接入来自 Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft 和 xAI 共8家提供商的30多个图像生成模型。开发者可通过单一接口调用多种模型，简化多模型集成流程。

AI产品 OpenRouter Image API 图像生成多模型接入模型聚合

推荐理由：OpenRouter 把30多个图像生成模型集中到一个API里，开发者不用挨个对接不同的服务商，省事多了。

原文

01:01

LMSYS Org (SGLang)@lmsysorg

精选

Krea 2 是由 Krea AI 推出的开源文本到图像模型，在独立评测机构 Artificial Analysis 上排名第一。它包含两个版本：RAW 为未蒸馏基座检查点，适合微调和 LoRA 训练；Turbo 为 8 步蒸馏检查点，实现快速高质量生成。用户可在 RAW 上训练 LoRA，在 Turbo 上进行推理，并已获得 SGLang 的 Day-0 支持。

AI模型 Krea 2 SGLang RAW Turbo 图像生成

推荐理由：Krea 2 开源了双版本，RAW 用来训练 LoRA，Turbo 跑推理，直接用 SGLang 就能跑，比闭源模型更灵活。

原文

6月23日

17:27

AI Will@FinanceYF5

Midjourney在创作奇特、氛围感十足的图片和短动画上依然独一无二。Ethan Mollick用相似提示词生成的奇异城市呈现完全不同的风格。

AI产品 Midjourney 图像生成创意工具

推荐理由：Midjourney还是那个Midjourney，玩氛围感图片和短动画没对手，其他模型就是学不来那种调调。

原文

14:09

shao__meng@shao__meng

72°

字节跳动在火山引擎 FORCE 2026 原动力大会上发布 Seedream 5.0 Pro 图像生成模型和 Seedance 2.5 视频生成模型。OpenAI Sora 已关停，Google Veo 尚未更新，目前图像与视频生成赛道主要由中国厂商竞争，包括字节跳动、阿里巴巴、快手等。新模型在图像理解和视频生成能力上进一步升级。

AI模型 Seedream 5.0 Pro Seedance 2.5 字节跳动火山引擎图像生成视频生成

推荐理由：字节跳动刚发了两个新模型，图像和视频生成都升级了，中国大厂继续内卷，可以看看

原文

13:17

arXiv cs.AI@Sara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or

该论文提出一种名为Semantic Browsing的方法，解决文本到图像模型生成样本多样性不足的问题。传统方法依赖随机噪声产生无意义变化，而Semantic Browsing通过Vision Language Model（VLM）在文本层面施加结构化语义变异。用户可沿可解释的语义轴（如物体属性、场景布局）导航图像集，每个变体对应一个具体可理解的语义决策。实验表明该方法能生成多样且可浏览的设计空间。

论文 Semantic Browsing 文本到图像 Vision Language Model 图像生成多样性

推荐理由：想要生成同一主题下不同设计的图像？这篇论文教你用VLM在文本层面控制多样性，比随机抽噪声靠谱多了。

原文

00:50

AWS Machine Learning Blog@Nick Biso

精选

本文介绍了如何通过Amazon SageMaker AI处理作业部署ComfyUI工作流，实现单次批量生成数百张高质量图像。使用AWS CDK配置基础设施，利用GPU加速处理自动执行图像生成。该方案可适配自定义ComfyUI工作流，适用于规模化创意流水线。

技巧 ComfyUI Amazon SageMaker AI 图像生成工作流 AWS CDK

推荐理由：AWS官方教你用ComfyUI和SageMaker AI批量跑图，省时省GPU钱，适合需要自动生成大量图像的团队。

原文

6月20日

03:05

Together AI@togethercompute

88°

OpenAI 的 GPT Image 2 模型现已在 Together AI 的 Serverless Inference 服务中上线。开发者可通过该接口将图像生成与编辑功能集成到多模态应用中。模型支持精准布局控制、可读文本生成以及参考图像引导生成。Together AI 提供无服务器推理能力，无需管理基础设施即可调用。

AI模型 GPT Image 2 OpenAI Together AI 图像生成多模态

推荐理由：OpenAI 的新图像模型 GPT Image 2 现在能用 Together AI 的无服务器接口调用了，做多模态应用时直接用它生成和编辑图片，支持布局和文字控制，挺方便。

原文

6月19日

11:15

arXiv cs.AI@Jinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

FreeStyle提出一种基于社区LoRA挖掘的可扩展双参考生成框架，利用社区LoRA作为风格和内容的组合锚点，构建大规模三元组数据（风格参考和内容参考）。采用两阶段课程，包括注意力级富集约束抑制风格参考泄漏，以及频率感知RoPE调制解决位置对应泄漏。引入新基准，包含风格不变内容对齐分数（CAS）和基于VLM的拒绝分数。实验表明，FreeStyle在风格对齐、内容保持和泄漏抑制之间取得强平衡。

AI模型 FreeStyle LoRA 双参考生成图像生成风格迁移

推荐理由：想同时控制图片风格和内容？FreeStyle用社区LoRA搞定双参考生成，还自带防泄漏机制，比以往方法更稳。

原文

00:32

Replicate@replicate

P-Image-Try-On 是 PrunaAI 发布的虚拟试穿模型，现已上线 Replicate 平台。每次试穿第一件衣服仅 $0.015，每增加一件 $0.008，最多可同时试穿 11 件衣物。支持质量模式（每件 <2 秒）和 Turbo 模式（总计 <4 秒）。提供提示引导和姿态引导实现精确控制。适合电商和时装团队无需重拍即可生成试穿效果。

AI模型 P-Image-Try-On PrunaAI Replicate 虚拟试穿图像生成

推荐理由：PrunaAI 出了个超便宜的虚拟试穿模型，第一件才一分五，快至2秒一件，还能一次穿11件，电商团队看过来。

原文

6月18日

12:50

AI Will@FinanceYF5

Min Choi发布了一段对比视频，展示3年前Modelscope与现在Grok Imagine 1.5的图像生成结果。Grok Imagine 1.5生成的图像在细节和真实感上明显优于Modelscope。视频直观呈现了AI图像模型在三年间的视觉进步。

AI模型 Grok Grok Imagine 1.5 Modelscope 图像生成模型对比

推荐理由：看看Grok Imagine 1.5比三年前的Modelscope强多少，一段视频就能看清差距。

原文

12:41

AI Will@FinanceYF5

ModelScope和Grok Imagine 1.5分别左右展示AI图像生成模型3年间的进步。左图来自ModelScope，右图来自Grok Imagine 1.5，生成质量有明显差异。Grok Imagine 1.5在细节、真实感和多样性上表现更优。这种对比直观反映了模型迭代的效果。

AI模型 ModelScope Grok Imagine 1.5 图像生成 AI进步

推荐理由：看看ModelScope和Grok Imagine 1.5的生成效果左右对比，感受AI图像模型3年间的进化。

原文

6月17日

07:28

宝玉@dotey

这个提示词针对 ChatGPT 的 GPT Image 2 功能设计，可将照片一键转换为装饰性民间风格平面插图。提示词要求使用大胆俏皮的配色、简化细节为干净的扁平形状，并加入手工感涂鸦元素。效果呈现可爱童趣的涂鸦感，类似在白纸上手绘。该推文获得 10 个点赞和 1440 次查看，实用性强。

技巧 GPT Image 2 ChatGPT 提示词工程 AI绘画图像生成

推荐理由：这个提示词真不错，把照片变成卡通涂鸦风格的平面插画，效果很可爱。GPT Image 2 就能直接用，试试看吧。

原文

04:28

a16z@a16z

Ideogram CEO Mohammad Norouzi 在a16z的对话中表示，图像模型需要具备“品味”，但很难定义。他认为品味包括跳出常规、不迎合平均观点，这有时会与追求排行榜顶部相矛盾。目前AI在品味评估方面表现不佳，因此Ideogram与设计师合作来推动模型的品味提升。

行业 Ideogram 图像生成模型评估品味 AI安全

推荐理由：听听Ideogram的CEO聊AI图像模型怎么才能有品味，不是堆分数，而是跟设计师合作。挺反直觉的。

原文

00:10

Justine Moore@venturetwins

Ideogram 发布了名为 Ideogram 2.0 的开源权重图像模型，宣称在开放权重类别中排名第一。该模型体积足够小，可在消费级 GPU 上运行，但在设计任务上与 Nano Banana 和 GPT Image 竞争。研究团队由 @mo_norouzi 领导，分享了技术细节和观点。

AI模型 Ideogram 开源模型图像生成消费级GPU GPT Image

推荐理由：Ideogram 这个开源权重图像模型能在普通显卡上跑，还能和 GPT Image 掰手腕，适合不想烧钱又想要好效果的人。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

09:22

Runway ML@runwayml

Runway 宣布其视频和图像生成与编辑功能直接集成到 ChatGPT 中，用户无需在标签页之间切换即可使用。该集成支持在 ChatGPT 对话界面内直接调用 Runway 的模型生成视频和图像。Runway 此前已提供文本生成视频、图像编辑等功能，此次与 ChatGPT 的整合简化了工作流程。用户可同时利用 ChatGPT 的对话能力和 Runway 的多模态生成能力。

AI产品 Runway ChatGPT 视频生成图像生成多模态

推荐理由：Runway 直接嵌进 ChatGPT 里了，不用来回切页面就能生成和编辑视频图片，特别方便。

原文

6月12日

19:43

berryxia@berryxia

YouMind 1.0 正式版本发布，该产品从0.x版本开始迭代，不断打磨更新。用户反馈YouMind在图像生成和Agent优化方面表现出色，尤其擅长生图调优。产品一路成长，获得了用户认可。

AI产品 YouMind 图像生成 Agent优化产品迭代生图调优

推荐理由：YouMind 1.0 解决了生图调优的痛点，做图像生成和Agent优化的团队可以直接体验，看看它如何帮你提升效率。

原文

13:28

Microsoft AI@MicrosoftAI

微软发布了其图像生成与编辑模型MAI-Image-2.5，该模型能够生成高度逼真的照片级图像，并支持精确编辑。一个有趣的细节是，其官方宣传图全部由模型本身生成，展示了其在细节和真实感上的强大能力。用户现在可以在微软Playground或OpenRouter上免费试用该模型。

AI产品图像生成图像编辑微软 MAI-Image-2.5 照片级真实感

推荐理由：微软MAI-Image-2.5在照片级真实感和精确编辑上表现出色，做设计、内容创作或AI图像研究的团队值得一试，直接在Playground或OpenRouter上体验其生成效果。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

01:50

Ideogram@ideogram_ai

Ideogram 4.0 是 Ideogram 首个开放权重的模型，发布一周后，开源和创意社区已经用它做出了超出预期的应用。JSON 和边界框提示（bounding box prompting）正在成为新的标准用法。官方在推文中汇总了第一周的社区亮点，展示了模型在可控生成和结构化提示方面的潜力。

AI模型 Ideogram 4.0 开源/仓库图像生成 JSON 提示边界框提示

推荐理由：开源图像生成模型终于有了更可控的提示方式——JSON 和边界框让精确布局成为可能，做 AI 绘画工具或创意生成的开发者值得关注社区玩法。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

13:19

Midjourney@midjourney

72°

Midjourney 宣布 V8.1 成为所有用户的默认模型，V8 将在两周后退役。V8.1 恢复了标志性美学，支持原生 2K 高清渲染，速度比 V8 快 3 倍，成本降低 3 倍。全质量 1K 模式比 V7 草稿模式更快。图像提示功能回归，新的“Describe”功能上线，并引入了 moodboards 和 srefs。V8.2 测试即将开始。

AI产品 Midjourney V8.1 图像生成 AI 绘画模型更新

推荐理由：Midjourney 用户终于等来了更快的生成速度和更低成本，V8.1 的 2K 渲染和图像提示回归让创作更高效，建议立即体验新默认模型。

原文

12:14

Midjourney: Updates@Caleb

精选

Midjourney 已将默认模型从 V7 更新为 V8.1，基于用户测试和反馈。V8.1 模型更智能、更连贯，能更好地遵循详细提示，文字渲染效果也显著提升。启用 HD 模式后，图像质量进一步优化。这一更新意味着所有用户将默认使用更强大的生成能力，无需手动切换。

AI产品 Midjourney 图像生成模型升级 V8.1 AI 设计

推荐理由：Midjourney 用户现在默认就能用上更智能、更听话的 V8.1，文字渲染和细节遵循能力大幅提升，做设计或内容创作的建议直接试试 HD 模式。

原文

09:23

Recraft@recraftai

Recraft AI 发布了 V4.1 版本，主打“四个字符、零多余细节、最大个性”的极简提示词生成图像。该版本优化了模型对简短、高信息密度输入的理解能力，用户只需输入极少的文字即可获得富有表现力的图像。这一更新降低了 AI 图像生成的门槛，适合追求快速创意输出的设计师和内容创作者。目前官方在 X 平台展示了多个示例，引发社区关注。

AI产品 Recraft 图像生成极简提示创意工具 AI 设计

推荐理由：Recraft V4.1 解决了提示词冗长的问题，做创意设计或社交内容的人可以试试用四个字生成有性格的图像，效率提升明显。

原文

6月10日

12:58

AI Will@FinanceYF5

一条推特展示了Fable 5、Opus 4.8、GPT-5.5 Standard和GPT-5.5 Pro四个模型在相同Prompt下生成纽约天际线图像的结果对比。@aipulseda1ly 称这是目前见过最好的结果，差距肉眼可见。该对比直观反映了各模型在图像生成质量上的差异，对关注AI图像生成能力的用户有参考价值。

AI模型 Fable 5 Opus 4.8 GPT-5.5 图像生成模型对比

推荐理由：四个主流模型同Prompt出图对比，做AI绘画或模型评测的可以直接看结果，省去自己跑实验的时间。

原文

12:33

arXiv cs.AI@Yihao Zhao, Xuan Han, Bin He, Mingyu You

精选

针对商品展示图像生成中，前景条件外绘（FCO）方法常出现伪影（即合成背景中与前景实例语义相同的区域）的问题，本文提出CCE-Diffusion框架。其核心是CCE-Module，通过定制概念嵌入来弥合通用名词语义与特定视觉实例之间的差距，并引入实例感知损失和语义保持提示模板来优化。实验表明，该方法显著减少了伪影，提升了图像质量。CCE-Module作为即插即用组件，可集成到多种FCO方法中，为电商等场景提供低成本高质量背景生成方案。

论文图像生成外绘概念嵌入扩散模型电商应用

推荐理由：电商和广告设计团队终于有了解决外绘伪影的实用方案——CCE-Diffusion能直接减少背景中与产品重复的语义区域，让产品更突出。做图像生成或商品展示的开发者可以试试集成这个即插即用模块。

原文

00:55

elvis@omarsar0

dair_ai 创始人宣布推出基于 AI Agent 的实操学习平台，首批上线 4 个动手实验，涵盖 Agent 技能、Agentic 图像生成、30 天 Hermes Agent 挑战和 Agent 提示工程。该平台旨在让任何人通过构建和获取高需求 AI 技能，成为顶级 AI 构建者。未来几周还将有更多内容上线。

AI产品 AI Agent 实操课程 dair_ai 提示工程图像生成

推荐理由：想系统掌握 AI Agent 构建技能的开发者，现在有了直接上手的实操路径——4 个实验覆盖从基础到进阶，建议立即体验。

原文

6月9日

14:52

AI Will@FinanceYF5

精选

谷歌在 Gemini Live 中直接上线了图像生成与编辑功能，用户可在使用 Gemini 应用时实时生成或修改图片。该功能通过实时摄像头共享实现，用户能给 Gemini 看眼前场景，让它现场创建、调整或解读画面。

AI产品 Gemini 谷歌图像生成图像编辑

推荐理由：谷歌给 Gemini Live 加实时生图

原文

02:22

Decoder@Jonathan Kemper

精选72°

微软研究院推出Lens，一个仅3.8B参数的文本到图像模型，在基准测试中匹配更大模型，训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述，而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。

AI模型图像生成微软 Lens GPT-4.1 开源/仓库

推荐理由：做图像生成模型训练或研究的团队，可以借鉴Lens用详细标注替代规模扩张的思路，直接复用其开源代码和权重，能大幅降低训练成本。

原文

01:22

Ideogram@ideogram_ai

精选

Ideogram V4 模型支持通过结构化 JSON 提示和边界框控制实现精确的图像构图，用户可以在 ComfyUI 中绘制边界框来指定元素位置。该模型仅需 12 步（turbo 模式）即可生成高质量图像，并具备出色的文本渲染能力。社区开发者已创建 'Ideogram 4 Prompt Builder' 节点，方便在 ComfyUI 中使用。这一方法被评价为当前最先进的开源图像模型之一，为图像生成带来了前所未有的构图控制。

AI产品 Ideogram V4 图像生成边界框控制 ComfyUI JSON 提示

推荐理由：想要精确控制 AI 图像构图的创作者终于有了实用方案——用边界框和 JSON 提示就能指定元素位置，做设计、插画或广告素材的团队可以直接在 ComfyUI 里试试 Ideogram V4。

原文

00:57

Google Gemini App@GeminiApp

精选

Google的Gemini 3.5 Flash推出了Canvas功能，可一次生成经典早期2000年代PC绘画风格。该功能让用户快速创建复古风格的画作，无需多步骤调整。目前推文展示了单次生成效果并询问用户创作意图。

AI产品 Gemini 3.5 Flash Canvas 图像生成创意工具

推荐理由：用Gemini画复古画

原文

6月7日

21:43

LovartAI@lovart_ai

Ideogram 4.0 正式发布，官方称其为“世界上最好的开源图像模型”。该模型支持权重下载、用户在自己的数据上进行微调，并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一发布意味着开发者可以自由定制和部署高质量的图像生成能力，降低了图像 AI 的门槛。

AI模型开源/仓库图像生成 Ideogram 4.0 模型微调本地部署

推荐理由：开源图像模型终于有了新标杆，做图像生成、模型微调或本地部署的团队可以直接下载权重试试，不用再依赖闭源 API。

原文