03:51Google AI@GoogleAI精选Google推出Nano Banana 2 Lite,这是其最快且成本最低的Gemini图像模型,文本转图像仅需不到4秒,已通过Gemini API和Google AI Studio提供。同时公开预览Gemini Omni Flash,这是一款原生多模态模型,用于高效视频生成和对话式编辑,可通过API和Enterprise Agent Platform使用。两者结合可快速生成图像并即时动画化,室内设计demo展示上传照片后生成定制概念并转化为动态视频。AI模型Nano Banana 2 LiteGemini Omni FlashGoogle图像生成视频生成10 个信源在谈推荐理由:Google一口气发了两个模型:一个4秒出图,一个直接生成视频,还能连起来用,成本还低,搞创作的可以试试。原文
03:07The Rundown AI@therundownai精选73°Google今天发布两个新模型:Nano Banana 2 Lite用于图像生成,Gemini Omni Flash用于视频生成。Lite可在4秒内生成一张图像,价格为每千张0.034美元,适合高吞吐低成本任务。Omni Flash在LMArena文本到视频排行榜排名第一,在图像到视频和视频编辑中位列前二,仅次于Seedance 2.0,价格为每秒0.10美元。OpenAI的gpt-image-2仍在图像排行榜上保持领先。AI模型Nano Banana 2 LiteGemini Omni FlashGoogle图像生成视频生成10 个信源在谈推荐理由:Google新出了两个模型:Lite低成本快速出图(4秒/张,千张34美元),Omni Flash视频生成在LMArena登顶,性价比不错。想省钱做图或搞视频的可以关注。原文
00:52Logan Kilpatrick@OfficialLoganK精选Google 发布两款新生成式媒体模型 Nano Banana 2 Lite 和 Gemini Omni Flash,集成在 Gemini API 和 AI Studio 中。Nano Banana 2 Lite 图像生成速度低于 4 秒,成本仅 $0.034/千张。Gemini Omni Flash 在视频编辑任务上达到 SOTA,定价 $0.10/秒,与 Veo 3.1 Fast 相同。两者均强调高效与低成本。AI模型Nano Banana 2 LiteGemini Omni FlashGoogle图像生成视频编辑10 个信源在谈推荐理由:Google 发了两款新模型:一个 4 秒出图、千张只要 3 分 4;另一个视频编辑达到 SOTA 且和 Veo 3.1 Fast 一样便宜。原文
16:06IT之家(博客/媒体)精选商汤科技正在研发代号U1 Pro的多模态模型,聚焦设计场景,对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头,属于日日新家族,预计7月启动内部邀请测试。支持8K分辨率输出,能实现设计-生成-评审长程循环。内部评测显示,相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。AI模型商汤科技U1 ProGPT-Image 2多模态图像生成10 个信源在谈推荐理由:商汤新模型U1 Pro专攻设计,对标GPT-Image 2,内部评测更优,支持8K输出,7月内测。原文
01:01LMSYS Org (SGLang)@lmsysorg精选Krea 2 是由 Krea AI 推出的开源文本到图像模型,在独立评测机构 Artificial Analysis 上排名第一。它包含两个版本:RAW 为未蒸馏基座检查点,适合微调和 LoRA 训练;Turbo 为 8 步蒸馏检查点,实现快速高质量生成。用户可在 RAW 上训练 LoRA,在 Turbo 上进行推理,并已获得 SGLang 的 Day-0 支持。AI模型Krea 2SGLangRAWTurbo图像生成推荐理由:Krea 2 开源了双版本,RAW 用来训练 LoRA,Turbo 跑推理,直接用 SGLang 就能跑,比闭源模型更灵活。原文
00:50AWS Machine Learning Blog@Nick Biso精选本文介绍了如何通过Amazon SageMaker AI处理作业部署ComfyUI工作流,实现单次批量生成数百张高质量图像。使用AWS CDK配置基础设施,利用GPU加速处理自动执行图像生成。该方案可适配自定义ComfyUI工作流,适用于规模化创意流水线。技巧ComfyUIAmazon SageMaker AI图像生成工作流AWS CDK推荐理由:AWS官方教你用ComfyUI和SageMaker AI批量跑图,省时省GPU钱,适合需要自动生成大量图像的团队。原文
12:14Midjourney: Updates@Caleb精选Midjourney 已将默认模型从 V7 更新为 V8.1,基于用户测试和反馈。V8.1 模型更智能、更连贯,能更好地遵循详细提示,文字渲染效果也显著提升。启用 HD 模式后,图像质量进一步优化。这一更新意味着所有用户将默认使用更强大的生成能力,无需手动切换。AI产品Midjourney图像生成模型升级V8.1AI 设计推荐理由:Midjourney 用户现在默认就能用上更智能、更听话的 V8.1,文字渲染和细节遵循能力大幅提升,做设计或内容创作的建议直接试试 HD 模式。原文
12:33arXiv cs.AI@Yihao Zhao, Xuan Han, Bin He, Mingyu You精选针对商品展示图像生成中,前景条件外绘(FCO)方法常出现伪影(即合成背景中与前景实例语义相同的区域)的问题,本文提出CCE-Diffusion框架。其核心是CCE-Module,通过定制概念嵌入来弥合通用名词语义与特定视觉实例之间的差距,并引入实例感知损失和语义保持提示模板来优化。实验表明,该方法显著减少了伪影,提升了图像质量。CCE-Module作为即插即用组件,可集成到多种FCO方法中,为电商等场景提供低成本高质量背景生成方案。论文图像生成外绘概念嵌入扩散模型电商应用推荐理由:电商和广告设计团队终于有了解决外绘伪影的实用方案——CCE-Diffusion能直接减少背景中与产品重复的语义区域,让产品更突出。做图像生成或商品展示的开发者可以试试集成这个即插即用模块。原文
02:22Decoder@Jonathan Kemper精选72°微软研究院推出Lens,一个仅3.8B参数的文本到图像模型,在基准测试中匹配更大模型,训练成本大幅降低。其关键创新是使用GPT-4.1生成的8亿条详细图像描述,而非模糊的网页替代文本。代码和权重已开源。这表明高质量标注比模型规模更重要。AI模型图像生成微软LensGPT-4.1开源/仓库推荐理由:做图像生成模型训练或研究的团队,可以借鉴Lens用详细标注替代规模扩张的思路,直接复用其开源代码和权重,能大幅降低训练成本。原文
01:22Ideogram@ideogram_ai精选Ideogram V4 模型支持通过结构化 JSON 提示和边界框控制实现精确的图像构图,用户可以在 ComfyUI 中绘制边界框来指定元素位置。该模型仅需 12 步(turbo 模式)即可生成高质量图像,并具备出色的文本渲染能力。社区开发者已创建 'Ideogram 4 Prompt Builder' 节点,方便在 ComfyUI 中使用。这一方法被评价为当前最先进的开源图像模型之一,为图像生成带来了前所未有的构图控制。AI产品Ideogram V4图像生成边界框控制ComfyUIJSON 提示推荐理由:想要精确控制 AI 图像构图的创作者终于有了实用方案——用边界框和 JSON 提示就能指定元素位置,做设计、插画或广告素材的团队可以直接在 ComfyUI 里试试 Ideogram V4。原文
00:45a16z@a16z精选72°Ideogram 4.0 正式发布,并宣布开源权重。该模型被官方称为“世界上最好的开源图像模型”,支持用户下载权重、在自有数据上微调,并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一举措将推动图像生成领域的开源生态发展,为开发者和创作者提供更多自主权和灵活性。AI模型开源/仓库图像生成Ideogram 4.0模型权重本地部署4 个信源在谈推荐理由:图像生成领域终于有了一个真正能打的开源模型——Ideogram 4.0 权重可下载、可微调、可本地跑,做 AI 图像应用或研究的团队可以直接上手试试。原文
09:52berryxia@berryxia精选微软AI今日发布了七个全新MAI模型,包括MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5等,覆盖推理、编码、图像、语音和转录任务。这些模型是从零开始、使用干净数据训练,不依赖蒸馏,强调血统纯净。其中MAI-Code-1-Flash在SWE-Bench Verified上达到71.6分,超越Claude Haiku 4.5,且节省60% token。MAI-Image-2.5在图像编辑和文本生图排名靠前,已集成到PowerPoint和OneDrive。微软的策略是构建专精任务、可协作的模型家族,而非追求单一通用大模型。AI模型微软MAI模型编程助手推理模型图像生成5 个信源在谈推荐理由:微软这次反主流而行,用干净数据从零训练专精模型,做AI开发或选型的人值得关注——MAI-Code-1-Flash在编码任务上性价比突出,Copilot用户可以直接体验。原文
08:12lmarena.ai@lmarena_ai精选76°微软在Build大会上发布了七款全新的MAI系列模型,涵盖推理、代码、图像、转录和语音等能力。这些模型从零开始训练,基于干净的数据溯源,设计注重效率,并作为模型家族无缝协作。其中MAI-Image-2.5是图像生成模型,其他模型包括推理、代码生成、语音识别等。这标志着微软在自研AI模型上的重大投入,旨在为开发者提供一体化AI解决方案。AI模型微软MAI模型Build大会图像生成推理模型5 个信源在谈推荐理由:微软一口气推出七款自研模型,覆盖推理到语音全场景,做AI应用开发的团队可以直接集成,省去拼凑多家模型的麻烦。原文
11:06arXiv cs.AI@Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei精选72°斯坦福大学发布GPIC(Giant Permissive Image Corpus),一个包含约28万亿像素、1亿训练样本的开放许可图像数据集。所有图像均采用宽松许可,可自由用于研究和商业用途,并经过安全过滤和去重处理。数据集托管在Hugging Face上,附带基准测试协议和像素空间流匹配的参考基线。这为视觉生成模型的可扩展研究提供了稳定、大规模且合规的数据基础。论文视觉生成数据集开放许可图像生成斯坦福推荐理由:做视觉生成模型训练的研究者终于有了一个大规模、开放许可、可直接商用的数据集,不用再为版权和合规问题头疼。建议做图像生成、扩散模型或流匹配的团队直接下载使用。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
08:59marktechpost@Asif Razzaq精选Sakana AI 提出 DiffusionBlocks 框架,将残差网络中的每一层更新解释为逆向扩散去噪步骤,从而将网络分解为多个独立可训练的块。这种方法允许每个块单独训练,无需端到端反向传播,降低了训练复杂度和内存需求。实验表明,DiffusionBlocks 在图像生成任务上达到与标准残差网络相当的性能,同时训练效率更高。该工作为扩散模型与残差网络的结合提供了新思路,有望推动大规模模型的分布式训练。论文扩散模型残差网络块式训练Sakana AI图像生成推荐理由:Sakana AI 这个框架解决了残差网络训练中梯度回传的瓶颈,做大规模生成模型或分布式训练的团队值得关注——它让每个模块可以独立优化,直接降低显存和通信开销。原文
13:50IT之家(博客/媒体)精选72°英伟达团队发布 PiD(像素扩散解码器)图像生成技术,将潜在解码与上采样合并为一个生成模块,在消费级 RTX 5090 上仅需 13GB 显存、不到 1 秒即可将 512×512 潜变量解码放大至 2048×2048 像素。PiD 基于 PixelDiT 构建,加入轻量级 ControlNet 适配器,并通过 DMD2 蒸馏将推理步数压缩至 4 步,配合早停机制兼顾速度与质量。相比级联式扩散超分方案,端到端延迟最多快 5.9 倍,视觉保真度更优。该技术兼容传统 VAE 和语义潜变量(如 SigLIP、DINOv2),具备较强通用性。AI模型英伟达PiD图像生成像素扩散解码器高分辨率解码推荐理由:英伟达 PiD 解决了高分辨率图像生成中解码器速度慢、显存占用高的痛点,做 AI 图像生成或超分应用的开发者可以直接在消费级显卡上跑通,值得关注。原文
11:45arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu精选本文提出通道级向量量化(CVQ),一种全新的图像标记化范式,将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ,作者构建了通道级自回归(CAR)模型,采用“下一通道预测”策略,模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明,CVQ在16K+码本大小下实现100%码本利用率,显著提升重建质量;CAR在DPG和GenEval指标上分别达到86.7和0.79,在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路,有望推动图像生成效率与质量的双重提升。论文图像生成向量量化自回归模型文本到图像视觉细节推荐理由:CVQ解决了传统VQ码本利用率低、细节丢失的痛点,做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化,生成质量更高。原文
17:54AI Will@FinanceYF5精选OpenAI 发布 ChatGPT Images 2.0,但核心不是图像模型,而是将图像视为一种语言,融入主干而非附加功能。Altman 强调从 GPT-3 直接跨越到 GPT-5,官方博客以「图像是语言,不是装饰」开篇,表明战略转向。这意味着图像生成与理解将深度集成到对话中,改变用户与 AI 交互的方式。AI产品ChatGPT图像生成多模态OpenAI战略升级7 个信源在谈推荐理由:OpenAI 把图像从附加功能提升为对话主干,做内容创作或产品设计的团队值得关注——这可能会改变你使用 AI 的方式。原文
10:48eric zakariasson@ericzakariasson精选Cursor 创始人 Eric Zakariasson 分享了内部 Slack 自动化 @drawitpoorly 的诞生故事。该自动化利用 Slack MCP 获取用户头像,再通过图像生成工具将头像重绘成笨拙、潦草的涂鸦风格,并回复到 Slack 线程中。内部 PMF 验证成功后,团队将其推向外部。Cursor 现已支持在 Agents 窗口中创建和管理自动化,新创建的自动化在 7 天内可享 50% 折扣。AI产品CursorSlack MCP自动化图像生成内部工具10 个信源在谈推荐理由:这个案例展示了如何用 Cursor 的自动化功能快速验证内部工具 PMF,做 Slack 集成或趣味 AI 应用的开发者可以直接抄作业。原文
11:42arXiv cs.AI(学术论文)精选80°Flow-OPD提出首个将在线策略蒸馏(OPD)集成到Flow Matching模型中的统一后训练框架,有效解决了多任务对齐中的奖励稀疏和梯度干扰问题。该框架采用两阶段对齐策略:先通过单奖励GRPO微调培养领域专用教师模型,再通过Flow冷启动、在线策略采样、任务路由标注和密集轨迹监督将异构专业知识整合到单个学生模型中。研究者还引入了流形锚点正则化(MAR),利用任务无关教师提供全数据监督,避免RL驱动对齐中常见的美学退化。在Stable Diffusion 3.5 Medium上的实验显示,GenEval分数从63提升至92,OCR准确率从59%提升至94%,整体提升约10个百分点,且保持图像保真度和人类偏好对齐,并出现“超越教师”效应。该工作为构建通用文本到图像模型的可扩展对齐范式奠定了基础。论文图像生成Flow Matching在线策略蒸馏多任务对齐Stable Diffusion 3.5推荐理由:该工作针对现有多任务对齐中指标相互制约和奖励欺骗的痛点,将LLM领域成熟的OPD方法成功迁移至图像生成领域,并通过冷启动、任务路由和正则化创新提升了效果。实验在关键指标上大幅领先现有方法,对业界构建高性能通用文生图模型具有直接参考价值。原文