text-to-image

§ 01综述

Text-to-image是指根据文本描述自动生成对应图像的技术，近年来随着扩散模型和CLIP等技术的成熟，这一领域发展迅速，涌现出大量商业和开源模型。当前，业界通过公开排行榜（如Text-to-Image Arena）来评估模型的表现，竞争日趋激烈。

Text-to-Image 近期进展

Text-to-Image Arena 排行榜上线：2025年，LM Arena平台推出了专门的文生图竞技场，允许用户对比不同模型的生成质量，并筛选关键数据点如投票数、胜率等。这一工具为社区提供了标准化的评估基准Text-to-Image Arena 排行榜上线，可筛选关键数据点。

Reve 2.0 登顶第二名：Reve 2.0模型在竞技场中超越GPT-Image，跃居总排名第二，显示出其在图像质量和文本对齐上的优势Reve 2.0 登顶文生图竞技场第二名，超越GPT-Image。

开源模型持续突破：Ideogram-4.0-Quality开源模型跻身竞技场第八名，而HiDream-01-Image也进入前30，表明开源社区在text-to-image领域正快速追赶闭源方案Ideogram-4.0-Quality 开源模型登顶Text-to-Image Arena第8名 HiDream-01-Image 开源模型在文生图竞技场排名第27。

当前焦点与观察点

当前text-to-image领域的焦点集中于模型评估标准化和开源生态的崛起。公开排行榜的引入使得不同模型之间的对比更加透明，但也引发了关于评测指标是否全面、用户偏好是否具有偏向性的讨论。另一方面，开源模型如Ideogram-4.0和HiDream-01-Image的快速进步，正在缩小与闭源模型（如DALL·E、Midjourney）的差距，这可能推动行业更快的迭代和应用普及。此外，多模态大模型（如GPT-4o）内置的text-to-image能力进一步模糊了语言模型和图像生成之间的边界，未来的竞争将不仅限于生成质量，还包括与对话系统的无缝集成。

§ 02相关报道08 条在档

§ 03邻近话题