03:42Mustafa Suleyman@mustafasuleyman72°MAI-image-2.5 在 ArtificialAnalysis 基准中文本到图像排名第二,仅次 GPT 模型,图像编辑排名第三。MAI-Image-2.5-Flash 在质量/价格比上全球领先。该模型已通过 Foundry API 提供,正逐步在 OneDrive 和 PowerPoint 中推出。用户也可在 MAI Playground 直接体验。AI模型MAI-image-2.5MAI-Image-2.5-FlashMicrosoft文生图图像编辑1 个信源在谈推荐理由:微软新图像模型 MAI-image-2.5 文本到图像只输 GPT,性价比版全球第一,可以 OneDrive 和 PPT 里直接用。原文
13:03arXiv cs.AI@Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan DuanDiT-Reward利用预训练的文生图Diffusion Transformer(DiT)的生成表征进行奖励预测。在HPDv2和HPDv3基准上分别达到85.6%和77.6%的准确率,全面超越HPSv3。冻结生成骨干网络时,轻量头仍能提取有效偏好。用于优化Stable Diffusion 3.5 Large时,DiT-Reward在生成逼真度上明显优于HPSv3,且推理速度提升1.65倍。论文DiT-RewardDiffusion TransformerHPSv3文生图奖励模型推荐理由:这篇论文教你直接用文生图模型的内部表征来当奖励模型,效果比HPSv3好,还能加速推理,适合想搞图像生成优化的朋友原文
12:52Artificial Analysis@ArtificialAnlys精选Ideogram 4.0 是 Ideogram 首个开放权重的模型,在开放权重文生图排行榜上位列第8。该模型支持 2K×2K 分辨率输出,具备强文本渲染、边界框布局控制和透明背景生成能力。它使用结构化 JSON 提示词来指定构图和场景元素,并通过提示词增强器将自然语言转换为结构化格式。在 API 方面,提供 Turbo、Default 和 Quality 三个档次,价格从每千张 30 美元到 100 美元不等。权重可免费下载用于评估和非商业用途,商业自托管需单独授权。AI模型Ideogram 4.0开源/仓库文生图文本渲染布局控制2 个信源在谈推荐理由:做图像生成或设计工具的开发者终于有了一个开源的高质量选择——Ideogram 4.0 的文本渲染和布局控制能力突出,且开放权重意味着可以本地部署和二次开发,值得关注。原文
12:48Artificial Analysis@ArtificialAnlys精选HiDream 发布 O1-Image-1.5 模型,在 Artificial Analysis 文生图排行榜上位列第三,超越 Google 的 Nano Banana 2。该模型基于统一 Transformer(UiT)架构,将像素、文本和任务条件编码到同一共享 token 空间,无需分离文本编码器、VAE 和图像模型。它支持生成 2K 分辨率图像,质量接近 OpenAI 的 GPT Image 1.5 和 Gemini 3.1 Flash Image Preview。定价为每千张图像 80 美元,目前在 HiHarness 和 Vivago 平台可用。AI模型文生图HiDream统一Transformer排行榜2K分辨率10 个信源在谈推荐理由:HiDream 用统一 Transformer 架构简化了文生图流程,做图像生成或模型对比的开发者值得关注其性价比和效果。原文
09:36arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma精选FaithRewriter 是一种新的提示增强框架,旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性,但缺乏视觉基础,容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索,然后将该图像与提示结合输入大规模语言模型,生成视觉上更合理的增强内容。最后,这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明,FaithRewriter 生成的提示更忠实于用户意图,视觉上更合理,有效缩小了意图-生成差距。论文文生图提示增强FaithRewriter多模态视觉锚点推荐理由:做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题,生成的提示更贴近用户真实意图,值得在项目中尝试集成。原文
05:16lmarena.ai@lmarena_aiImage Arena 最新排名显示,开源文生图模型竞争激烈。Ideogram-4.0 Quality 以 1204 分位居第一,腾讯 Hunyuan Image 3.0 以 1151 分紧随其后,仅比第三名 Flux-2 Dev 高 1 分。阿里 Qwen Image 2512 和 HiDream-O1 Image 分别位列第四和第五。前六名来自不同实验室,而 Flux 和 Qwen 在前 15 名中占据多个席位,显示出深度优势。AI模型文生图开源模型IdeogramHunyuanQwen推荐理由:开源文生图模型的排名变化直接反映技术趋势,做图像生成应用或研究的人可以据此选择模型,值得关注 Ideogram 和 Hunyuan 的最新进展。原文
03:23lmarena.ai@lmarena_aiAI 文生图竞技场新增三个模型:Reve 2.0、MAI Image 2.5 和 Ideogram 4.0。Reve 2.0 在八个类别中的六个领先,尤其在文本渲染、商业设计和写实图像方面表现突出。MAI Image 2.5 在 3D 成像和艺术类别中领先,其他类别也具竞争力。Ideogram 4.0 在整体性能和文本渲染上表现最佳。这次更新为文生图领域带来了更多选择,不同模型各有专长。AI模型文生图Reve 2.0MAI Image 2.5Ideogram 4.0模型评测5 个信源在谈推荐理由:做设计或内容创作的团队,可以根据需求选模型——Reve 2.0 适合商业设计,MAI Image 2.5 适合 3D 和艺术,Ideogram 4.0 文本渲染强,值得对比试试。原文
14:03IT之家(博客/媒体)76°Ideogram 发布 4.0 开放权重文生图模型,9.3B 参数,采用单流 DiT 架构,文本与图像 tokens 共享注意力序列。该模型在文字绘制上表现突出,能准确呈现长文本,适合海报、商品图等场景。通过边界框和结构化 JSON 训练,用户可精确控制版式和元素位置。在 DesignArena 人类评价榜单中排名全球第 4,超越 Nano Banana Pro,成为最强开源生图模型。AI模型Ideogram 4.0开源/仓库文生图扩散 Transformer文字绘制6 个信源在谈推荐理由:做设计、营销或内容创作的团队终于有了开源可部署的高质量生图模型——Ideogram 4.0 的文字绘制和布局控制能力直接对标商用产品,建议下载权重试试。原文
04:36lmarena.ai@lmarena_aiReve 2.0 在 Text-to-Image Arena 中取得 1280 分,排名第二,超越 Nano Banana 2、MAI-Image-2.5 和 GPT-Image-1.5-High Fidelity,相比 v1.5 提升 125 分。该模型号称全球最佳 4K 图像模型,采用全新布局生成与编辑技术,首次实现可触摸的精细图像创作。Reve 团队宣布今日正式发布 Reve 2.0,强调其精准布局能力让用户能生成和编辑任意图像。这一进展标志着文生图领域在分辨率和控制精度上的重要突破。AI模型Reve 2.0文生图4K图像布局生成竞技场排名6 个信源在谈推荐理由:文生图竞技场排名大洗牌,做 AI 图像生成或内容创作的团队值得关注——Reve 2.0 的 4K 精度和布局控制能力可能改变高质量图像生成的标准,建议点开看看它如何超越 GPT-Image。原文
00:32lmarena.ai@lmarena_ai76°Ideogram-4.0-Quality 在文生图领域成为新的开源模型第一名,在所有子类别上相比前代有巨大提升。尤其在文本渲染和产品、品牌与商业设计方面进步最为显著。该模型在公开评测中表现优异,标志着开源文生图模型质量迈上新台阶。AI模型Ideogram-4.0-Quality文生图开源模型文本渲染商业设计推荐理由:做设计或品牌营销的团队终于有了一个能打的开源文生图模型——Ideogram-4.0-Quality 在文本渲染和商业设计上进步明显,值得直接上手试试。原文
03:38Paul Couvert@itsPaulAi微软发布了一款新的图像编辑模型,在单图编辑任务上排名第二,仅次于GPT-Image-2,同时在文生图和文字渲染任务上分别排名第三。该模型经过数天测试,表现令人惊讶,但目前仅支持单图上传编辑,不支持多图编辑。这一发布表明微软在图像生成与编辑领域正快速追赶领先者。AI模型图像编辑微软文生图模型排名Nano Banana 25 个信源在谈推荐理由:图像编辑开发者或AI绘画爱好者可以关注这款新模型,它提供了接近GPT-Image-2的编辑质量,且目前免费可用,值得一试。原文
22:11Julien Chaumond@julien_cJasper AI 发布了 MONET 数据集,包含 1.05 亿个经过去重和重新标注的图像-文本对,采用 Apache 2.0 开源许可,是目前最大的开放许可文生图数据集之一。该数据集托管在 Hugging Face 上,旨在推动可复现的文生图研究。同时,Jasper 还开源了 Nano T2I 代码库,帮助开发者训练自己的文生图模型。这一发布解决了开源文生图领域缺乏大规模、高质量、可复现数据集的问题。AI产品文生图数据集开源/仓库Hugging FaceJasper推荐理由:做文生图研究的团队终于有了一个大规模、去重、重新标注的开源数据集,可以直接用于训练和复现实验,建议点开看看数据集和代码库。原文
03:09Decoder@Matthias Bastian微软最新图像生成模型 MAI-Image-2.5 在 Arena 文生图排行榜上位列第三,与谷歌的 Nano Banana 2 持平,但仍落后于 OpenAI 的 Image-2。相比前代,该模型在图像内文本渲染和商业视觉内容方面有显著提升。这标志着微软在图像生成领域与谷歌的竞争进入白热化阶段,尤其适合需要高质量图文混排的营销和设计场景。AI模型微软MAI-Image-2.5谷歌Nano Banana 2文生图文本渲染7 个信源在谈推荐理由:做营销素材和电商设计的团队可以关注——MAI-Image-2.5 的文本渲染能力直接对标谷歌,生成带字海报和产品图更靠谱,值得在内部测试中对比一下。原文
14:02Mustafa Suleyman@mustafasuleyman微软 AI 团队发布了 MAI-Image-2.5 模型,在文生图排行榜上位列第三,标志着图像生成质量的又一次重大进步。该模型在细节、构图和语义理解方面表现出色,接近顶级水平。微软 CEO 穆斯塔法·苏莱曼表示,随着 Build 大会临近,团队还有更多成果即将发布。这一进展进一步巩固了微软在生成式 AI 领域的竞争力。AI模型微软MAI-Image-2.5文生图排行榜生成式AI推荐理由:文生图赛道又添猛将,MAI-Image-2.5 直接杀入前三,做设计、内容创作或 AI 应用的团队值得关注——微软 Build 大会前放出这一信号,后续可能还有大招。原文
03:23lmarena.ai@lmarena_ai微软 AI 团队推出的 MAI-Image-2.5(预览版)在文生图竞技场排行榜上以 1254 分位列第三,相比前代 MAI-Image-2 提升了 72 分。此前该榜单前五名仅由 Google DeepMind 和 OpenAI 占据,微软的加入打破了这一格局。该模型在图像质量上取得了显著进步,且微软 Build 大会即将到来,预计会有更多更新。AI模型微软MAI-Image-2.5文生图排行榜AI模型10 个信源在谈推荐理由:微软在文生图领域首次跻身顶级阵营,做图像生成或 AI 应用的开发者值得关注其后续在 Build 大会上的发布。原文
08:05lmarena.ai@lmarena_aiHiDream AI 推出的 HiDream-01-Image 模型在 Text-to-Image Arena 中综合排名第27,成为排名第4的开源文生图模型。该模型在开源社区中表现出色,超越了多数同类开源模型,展示了 HiDream AI 在图像生成领域的实力。这一成绩意味着开发者可以免费使用接近闭源顶尖水平的文生图能力。AI模型文生图开源模型HiDream-01-ImageHiDream_AI模型排名推荐理由:开源文生图模型又添猛将,HiDream-01-Image 排名第4,做图像生成应用的团队可以直接拿来用,性价比很高。原文