全部 AI 动态 · AI 热点

6月26日

03:42

Mustafa Suleyman@mustafasuleyman

72°

MAI-image-2.5 在 ArtificialAnalysis 基准中文本到图像排名第二，仅次 GPT 模型，图像编辑排名第三。MAI-Image-2.5-Flash 在质量/价格比上全球领先。该模型已通过 Foundry API 提供，正逐步在 OneDrive 和 PowerPoint 中推出。用户也可在 MAI Playground 直接体验。

AI模型 MAI-image-2.5 MAI-Image-2.5-Flash Microsoft 文生图图像编辑

推荐理由：微软新图像模型 MAI-image-2.5 文本到图像只输 GPT，性价比版全球第一，可以 OneDrive 和 PPT 里直接用。

原文

6月23日

13:03

arXiv cs.AI@Yuanming Yang, Guoqing Ma, Bo Wang, Yuan Zhang, Wei Tang, Chenyi Li, Haoyang Huang, Nan Duan

DiT-Reward利用预训练的文生图Diffusion Transformer（DiT）的生成表征进行奖励预测。在HPDv2和HPDv3基准上分别达到85.6%和77.6%的准确率，全面超越HPSv3。冻结生成骨干网络时，轻量头仍能提取有效偏好。用于优化Stable Diffusion 3.5 Large时，DiT-Reward在生成逼真度上明显优于HPSv3，且推理速度提升1.65倍。

论文 DiT-Reward Diffusion Transformer HPSv3 文生图奖励模型

推荐理由：这篇论文教你直接用文生图模型的内部表征来当奖励模型，效果比HPSv3好，还能加速推理，适合想搞图像生成优化的朋友

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:52

Artificial Analysis@ArtificialAnlys

精选

Ideogram 4.0 是 Ideogram 首个开放权重的模型，在开放权重文生图排行榜上位列第8。该模型支持 2K×2K 分辨率输出，具备强文本渲染、边界框布局控制和透明背景生成能力。它使用结构化 JSON 提示词来指定构图和场景元素，并通过提示词增强器将自然语言转换为结构化格式。在 API 方面，提供 Turbo、Default 和 Quality 三个档次，价格从每千张 30 美元到 100 美元不等。权重可免费下载用于评估和非商业用途，商业自托管需单独授权。

AI模型 Ideogram 4.0 开源/仓库文生图文本渲染布局控制

推荐理由：做图像生成或设计工具的开发者终于有了一个开源的高质量选择——Ideogram 4.0 的文本渲染和布局控制能力突出，且开放权重意味着可以本地部署和二次开发，值得关注。

原文

12:48

Artificial Analysis@ArtificialAnlys

精选

HiDream 发布 O1-Image-1.5 模型，在 Artificial Analysis 文生图排行榜上位列第三，超越 Google 的 Nano Banana 2。该模型基于统一 Transformer（UiT）架构，将像素、文本和任务条件编码到同一共享 token 空间，无需分离文本编码器、VAE 和图像模型。它支持生成 2K 分辨率图像，质量接近 OpenAI 的 GPT Image 1.5 和 Gemini 3.1 Flash Image Preview。定价为每千张图像 80 美元，目前在 HiHarness 和 Vivago 平台可用。

AI模型文生图 HiDream 统一Transformer 排行榜 2K分辨率

推荐理由：HiDream 用统一 Transformer 架构简化了文生图流程，做图像生成或模型对比的开发者值得关注其性价比和效果。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月9日

09:36

arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma

精选

FaithRewriter 是一种新的提示增强框架，旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性，但缺乏视觉基础，容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索，然后将该图像与提示结合输入大规模语言模型，生成视觉上更合理的增强内容。最后，这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明，FaithRewriter 生成的提示更忠实于用户意图，视觉上更合理，有效缩小了意图-生成差距。

论文文生图提示增强 FaithRewriter 多模态视觉锚点

推荐理由：做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题，生成的提示更贴近用户真实意图，值得在项目中尝试集成。

原文

6月6日

05:16

lmarena.ai@lmarena_ai

AI模型文生图开源模型 Ideogram Hunyuan Qwen

推荐理由：开源文生图模型的排名变化直接反映技术趋势，做图像生成应用或研究的人可以据此选择模型，值得关注 Ideogram 和 Hunyuan 的最新进展。

原文

03:23

lmarena.ai@lmarena_ai

AI 文生图竞技场新增三个模型：Reve 2.0、MAI Image 2.5 和 Ideogram 4.0。Reve 2.0 在八个类别中的六个领先，尤其在文本渲染、商业设计和写实图像方面表现突出。MAI Image 2.5 在 3D 成像和艺术类别中领先，其他类别也具竞争力。Ideogram 4.0 在整体性能和文本渲染上表现最佳。这次更新为文生图领域带来了更多选择，不同模型各有专长。

AI模型文生图 Reve 2.0 MAI Image 2.5 Ideogram 4.0 模型评测

推荐理由：做设计或内容创作的团队，可以根据需求选模型——Reve 2.0 适合商业设计，MAI Image 2.5 适合 3D 和艺术，Ideogram 4.0 文本渲染强，值得对比试试。

原文

6月4日

14:03

14:03IT之家（博客/媒体）

76°

Ideogram 发布 4.0 开放权重文生图模型，9.3B 参数，采用单流 DiT 架构，文本与图像 tokens 共享注意力序列。该模型在文字绘制上表现突出，能准确呈现长文本，适合海报、商品图等场景。通过边界框和结构化 JSON 训练，用户可精确控制版式和元素位置。在 DesignArena 人类评价榜单中排名全球第 4，超越 Nano Banana Pro，成为最强开源生图模型。

AI模型 Ideogram 4.0 开源/仓库文生图扩散 Transformer 文字绘制

推荐理由：做设计、营销或内容创作的团队终于有了开源可部署的高质量生图模型——Ideogram 4.0 的文字绘制和布局控制能力直接对标商用产品，建议下载权重试试。

原文

04:36

lmarena.ai@lmarena_ai

Reve 2.0 在 Text-to-Image Arena 中取得 1280 分，排名第二，超越 Nano Banana 2、MAI-Image-2.5 和 GPT-Image-1.5-High Fidelity，相比 v1.5 提升 125 分。该模型号称全球最佳 4K 图像模型，采用全新布局生成与编辑技术，首次实现可触摸的精细图像创作。Reve 团队宣布今日正式发布 Reve 2.0，强调其精准布局能力让用户能生成和编辑任意图像。这一进展标志着文生图领域在分辨率和控制精度上的重要突破。

AI模型 Reve 2.0 文生图 4K图像布局生成竞技场排名

推荐理由：文生图竞技场排名大洗牌，做 AI 图像生成或内容创作的团队值得关注——Reve 2.0 的 4K 精度和布局控制能力可能改变高质量图像生成的标准，建议点开看看它如何超越 GPT-Image。

原文

00:32

lmarena.ai@lmarena_ai

76°

Ideogram-4.0-Quality 在文生图领域成为新的开源模型第一名，在所有子类别上相比前代有巨大提升。尤其在文本渲染和产品、品牌与商业设计方面进步最为显著。该模型在公开评测中表现优异，标志着开源文生图模型质量迈上新台阶。

AI模型 Ideogram-4.0-Quality 文生图开源模型文本渲染商业设计

推荐理由：做设计或品牌营销的团队终于有了一个能打的开源文生图模型——Ideogram-4.0-Quality 在文本渲染和商业设计上进步明显，值得直接上手试试。

原文

6月3日

03:38

Paul Couvert@itsPaulAi

微软发布了一款新的图像编辑模型，在单图编辑任务上排名第二，仅次于GPT-Image-2，同时在文生图和文字渲染任务上分别排名第三。该模型经过数天测试，表现令人惊讶，但目前仅支持单图上传编辑，不支持多图编辑。这一发布表明微软在图像生成与编辑领域正快速追赶领先者。

AI模型图像编辑微软文生图模型排名 Nano Banana 2

推荐理由：图像编辑开发者或AI绘画爱好者可以关注这款新模型，它提供了接近GPT-Image-2的编辑质量，且目前免费可用，值得一试。

原文

5月28日

22:11

Julien Chaumond@julien_c

Jasper AI 发布了 MONET 数据集，包含 1.05 亿个经过去重和重新标注的图像-文本对，采用 Apache 2.0 开源许可，是目前最大的开放许可文生图数据集之一。该数据集托管在 Hugging Face 上，旨在推动可复现的文生图研究。同时，Jasper 还开源了 Nano T2I 代码库，帮助开发者训练自己的文生图模型。这一发布解决了开源文生图领域缺乏大规模、高质量、可复现数据集的问题。

AI产品文生图数据集开源/仓库 Hugging Face Jasper

推荐理由：做文生图研究的团队终于有了一个大规模、去重、重新标注的开源数据集，可以直接用于训练和复现实验，建议点开看看数据集和代码库。

原文

03:09

Decoder@Matthias Bastian

AI模型微软 MAI-Image-2.5 谷歌 Nano Banana 2 文生图文本渲染

推荐理由：做营销素材和电商设计的团队可以关注——MAI-Image-2.5 的文本渲染能力直接对标谷歌，生成带字海报和产品图更靠谱，值得在内部测试中对比一下。

原文

5月27日

14:02

Mustafa Suleyman@mustafasuleyman

微软 AI 团队发布了 MAI-Image-2.5 模型，在文生图排行榜上位列第三，标志着图像生成质量的又一次重大进步。该模型在细节、构图和语义理解方面表现出色，接近顶级水平。微软 CEO 穆斯塔法·苏莱曼表示，随着 Build 大会临近，团队还有更多成果即将发布。这一进展进一步巩固了微软在生成式 AI 领域的竞争力。

AI模型微软 MAI-Image-2.5 文生图排行榜生成式AI

推荐理由：文生图赛道又添猛将，MAI-Image-2.5 直接杀入前三，做设计、内容创作或 AI 应用的团队值得关注——微软 Build 大会前放出这一信号，后续可能还有大招。

原文

03:23

lmarena.ai@lmarena_ai

微软 AI 团队推出的 MAI-Image-2.5（预览版）在文生图竞技场排行榜上以 1254 分位列第三，相比前代 MAI-Image-2 提升了 72 分。此前该榜单前五名仅由 Google DeepMind 和 OpenAI 占据，微软的加入打破了这一格局。该模型在图像质量上取得了显著进步，且微软 Build 大会即将到来，预计会有更多更新。

AI模型微软 MAI-Image-2.5 文生图排行榜 AI模型

推荐理由：微软在文生图领域首次跻身顶级阵营，做图像生成或 AI 应用的开发者值得关注其后续在 Build 大会上的发布。

原文

5月22日

08:05

lmarena.ai@lmarena_ai

HiDream AI 推出的 HiDream-01-Image 模型在 Text-to-Image Arena 中综合排名第27，成为排名第4的开源文生图模型。该模型在开源社区中表现出色，超越了多数同类开源模型，展示了 HiDream AI 在图像生成领域的实力。这一成绩意味着开发者可以免费使用接近闭源顶尖水平的文生图能力。

AI模型文生图开源模型 HiDream-01-Image HiDream_AI 模型排名

推荐理由：开源文生图模型又添猛将，HiDream-01-Image 排名第4，做图像生成应用的团队可以直接拿来用，性价比很高。

原文