07:39IT之家(博客/媒体)72°谷歌宣布,Gemini应用的Nano Banana驱动个性化图像生成功能对全美免费用户开放。该功能基于用户授权连接的Gmail、谷歌相册、YouTube和谷歌搜索获取偏好。用户只需简单提示如“创作一幅包含我和个人爱好的插画”,Gemini即可自动判断元素并生成图像。用户可开启或关闭“个性化智能”,并自行选择Gemini可访问的应用。谷歌此前披露Gemini月活跃用户已突破7.5亿。AI产品GeminiNano Banana谷歌个性化图像生成推荐理由:谷歌把Gemini的个性化生图免费开放了,它能根据你的相册和搜索记录自动生成贴合爱好的图像,不用写详细提示词了。原文
04:20techcrunch@Lauren Forristal谷歌宣布,其Gemini聊天机器人的个性化AI图像生成功能现已向符合条件的美国免费用户开放。该功能允许Gemini根据用户兴趣及来自谷歌应用(如Gmail、日历)的数据生成定制图像。此举将原本仅限付费用户的功能扩展到免费层。用户可在对话中直接要求Gemini生成反映个人风格的图片。AI产品GeminiGoogle图像生成个性化免费推荐理由:谷歌把Gemini的个性化生图功能免费开放给美国用户了,能根据你存的数据生成专属图片,试试看。原文
02:54Midjourney: Updates@CalebMidjourney 在 V8.1 的 draft mode 中新增 --sref random 参数,使用后一次可生成 24 张不同风格的图像。用户只需在提示词中加入 --draft(或点击闪电图标)进入草稿模式,再添加 --sref random 即可随机混合多种风格。该功能旨在帮助用户快速探索和发现喜欢的视觉风格,无需手动指定样式参考。AI产品MidjourneyV8.1draft mode图像生成风格探索推荐理由:想快速试不同画风?现在 Midjourney 草稿模式下加个参数,一次出 24 种随机风格,比手动换 sref 方便多了。原文
00:54techcrunch@Russell Brandom前Databricks AI负责人创立新公司,声称其技术可将AI系统电力消耗降低1000倍。该公司首个产品是图像生成系统Un0,能复现传统AI模型的功能但能耗极低。该声称基于硬件与算法协同优化,但尚未有第三方验证数据。若属实,可能大幅降低大规模AI部署的运营成本。行业DatabricksUn0图像生成AI能效推荐理由:前Databricks AI老大搞了个新公司,说能让AI耗电降到原来的千分之一,他们先做了个图像生成系统Un0,如果真能兑现,那AI成本得崩盘。原文
16:06IT之家(博客/媒体)精选商汤科技正在研发代号U1 Pro的多模态模型,聚焦设计场景,对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头,属于日日新家族,预计7月启动内部邀请测试。支持8K分辨率输出,能实现设计-生成-评审长程循环。内部评测显示,相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。AI模型商汤科技U1 ProGPT-Image 2多模态图像生成10 个信源在谈推荐理由:商汤新模型U1 Pro专攻设计,对标GPT-Image 2,内部评测更优,支持8K输出,7月内测。原文
00:50AWS Machine Learning Blog@Nick Biso精选本文介绍了如何通过Amazon SageMaker AI处理作业部署ComfyUI工作流,实现单次批量生成数百张高质量图像。使用AWS CDK配置基础设施,利用GPU加速处理自动执行图像生成。该方案可适配自定义ComfyUI工作流,适用于规模化创意流水线。技巧ComfyUIAmazon SageMaker AI图像生成工作流AWS CDK推荐理由:AWS官方教你用ComfyUI和SageMaker AI批量跑图,省时省GPU钱,适合需要自动生成大量图像的团队。原文
12:14Midjourney: Updates@Caleb精选Midjourney 已将默认模型从 V7 更新为 V8.1,基于用户测试和反馈。V8.1 模型更智能、更连贯,能更好地遵循详细提示,文字渲染效果也显著提升。启用 HD 模式后,图像质量进一步优化。这一更新意味着所有用户将默认使用更强大的生成能力,无需手动切换。AI产品Midjourney图像生成模型升级V8.1AI 设计推荐理由:Midjourney 用户现在默认就能用上更智能、更听话的 V8.1,文字渲染和细节遵循能力大幅提升,做设计或内容创作的建议直接试试 HD 模式。原文
02:22Decoder@Jonathan Kemper精选72°微软研究院推出Lens,一个仅3.8B参数的文本到图像模型,在基准测试中匹配更大模型,训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述,而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。AI模型图像生成微软LensGPT-4.1开源/仓库推荐理由:做图像生成模型训练或研究的团队,可以借鉴Lens用详细标注替代规模扩张的思路,直接复用其开源代码和权重,能大幅降低训练成本。原文
19:16Decoder@Maximilian Schreiner83°在Build 2026大会上,微软发布了7款自研AI模型,包括其首个推理模型。微软还推出了一种新的调优方法和一个自主后台智能体。在图像生成方面,微软声称超越了谷歌,但在推理能力上仍在追赶。这些模型和工具旨在增强Azure AI平台,为开发者提供更强大的AI构建能力。微软的自主后台智能体可以自动执行后台任务,提高效率。AI产品微软自研模型图像生成推理模型智能体推荐理由:微软一口气推出7款自研模型,图像生成能力超越谷歌,但推理模型仍在追赶——做AI应用开发的团队值得关注这些新工具,尤其是新的调优方法和自主后台智能体,可以直接提升项目效率。原文
08:59marktechpost@Asif Razzaq精选Sakana AI 提出 DiffusionBlocks 框架,将残差网络中的每一层更新解释为逆向扩散去噪步骤,从而将网络分解为多个独立可训练的块。这种方法允许每个块单独训练,无需端到端反向传播,降低了训练复杂度和内存需求。实验表明,DiffusionBlocks 在图像生成任务上达到与标准残差网络相当的性能,同时训练效率更高。该工作为扩散模型与残差网络的结合提供了新思路,有望推动大规模模型的分布式训练。论文扩散模型残差网络块式训练Sakana AI图像生成推荐理由:Sakana AI 这个框架解决了残差网络训练中梯度回传的瓶颈,做大规模生成模型或分布式训练的团队值得关注——它让每个模块可以独立优化,直接降低显存和通信开销。原文
14:14IT之家(博客/媒体)微软研究院发布 MAI-Image-2.5,这是其 MAI-Image 系列最强图像生成模型,在 Arena 文生图榜单升至第三。该模型重点增强了文字渲染能力,可胜任信息图、海报、包装等需要准确呈现文字的任务,同时在风格化插画、商业图像和视觉推理方面表现更稳定。用户已可在 Arena 体验,未来两周内将上线 MAI Playground 与 Foundry。AI模型微软MAI-Image-2.5图像生成文字渲染Arena推荐理由:做设计、营销或内容创作的团队终于有了更靠谱的商用级生图工具——文字渲染和视觉推理的提升让海报、包装这类需求不再翻车,建议直接去 Arena 试效果。原文
14:05IT之家(博客/媒体)PrismML 发布 Bonsai Image 4B 系列图像生成模型,包含 1-bit 和 Ternary 两个版本,专为本地设备优化。该模型基于 LUX.2 Klein 4B 构建,通过二值/三值权重大幅压缩体积,1-bit 版 Transformer 仅 0.93GB,内存占用降至 1.5GB。在 iPhone 17 Pro Max 上生成 512×512 图像仅需 9.4 秒,Mac M4 Pro 上约 6 秒,速度比全精度模型快 5.6 倍。质量方面,Ternary 版在 1.21GB 体积下保留约 95% 的准确性,1-bit 版在不足 1GB 下保留约 88%。这标志着高质量图像生成模型首次在手机上实现实时可用。AI模型图像生成模型压缩本地部署Bonsai Image 4BiPhone推荐理由:手机端终于能跑正经的图像生成模型了,做移动端 AI 应用或创意工具的开发者可以直接在 iPhone 上体验,9.4 秒出图的速度已经可用。原文
13:50IT之家(博客/媒体)精选72°英伟达团队发布 PiD(像素扩散解码器)图像生成技术,将潜在解码与上采样合并为一个生成模块,在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建,加入轻量级 ControlNet 适配器,并通过 DMD2 蒸馏将推理步数压缩至 4 步,配合早停机制兼顾速度与质量。相比级联式扩散超分方案,端到端延迟最多快 5.9 倍,视觉保真度更优。该技术兼容传统 VAE 和语义潜变量(如 SigLIP、DINOv2),具备较强通用性。AI模型英伟达PiD图像生成像素扩散解码器高分辨率解码推荐理由:英伟达 PiD 解决了高分辨率图像生成中解码器速度慢、显存占用高的痛点,做 AI 图像生成或超分应用的开发者可以直接在消费级显卡上跑通,值得关注。原文
17:45IT之家(博客/媒体)据彭博社记者马克·古尔曼报道,苹果计划在 iOS 27 系统中大幅提升其图像生成模型(用于 Genmoji 和 Image Playground)的画质。目前这些模型的成像效果平平,尤其是 Image Playground 与同类工具差距明显。苹果已优化自有模型,今年画质将显著改善,但不确定是否仍完全依赖设备本地运行。此外,Image Playground 将接入更多第三方 AI 图像生成模型,如谷歌的 Nano Banana 等,不再仅限 ChatGPT。这一升级有望缩小苹果与竞品在 AI 图像生成领域的差距。AI产品苹果iOS 27图像生成GenmojiImage Playground推荐理由:苹果终于要解决 AI 图像生成画质拉胯的问题了,用 iPhone 做创意设计的用户今年可以期待 Genmoji 和 Image Playground 的质变,建议关注 iOS 27 的更新细节。原文
07:59OpenAI@OpenAI (@OpenAI)OpenAI 宣布 ChatGPT 每周生成超过 15 亿张图片,自 Images 2.0 发布以来用户使用量激增。研究员 Kenji Hata 与产品负责人 Adele Li 及主持人 Andrew Mayne 共同探讨了由此催生的新用例和趋势。这一数据表明 AI 图像生成已从实验性工具转变为高频日常应用,尤其在内容创作、营销和社交媒体领域。对于依赖视觉内容的创作者和团队,这标志着 AI 图像生成进入规模化实用阶段。AI产品ChatGPT图像生成Images 2.0内容创作AI 应用趋势10 个信源在谈推荐理由:15 亿张/周的数据说明 AI 图像生成已不是玩具——做内容、营销、设计的团队该认真考虑把它纳入工作流了,点开看看别人都在怎么用。原文