Qwen发布Qwen-Image-Bench，T2I评测从生成升级到创作

精选理由

做T2I模型开发或选型的团队，终于有了一个能区分真实创意能力的评测标准，不再只看基础对齐分，建议直接拿自己的pipeline跑一遍，数据会说话。

AI 摘要

Qwen团队推出新基准Qwen-Image-Bench，将文本到图像（T2I）评测从简单的提示词对齐提升到真实世界保真度和创意生成能力。该基准包含56个细粒度评估维度，并配备Q-Judger自动评分器，与人类判断的相关性高达ρ=0.92。测试显示，OpenAI、Gemini、Grok、Flux等现有模型的排名被重新洗牌，差距明显。开发者、Prompt工程师和企业可用此基准评估模型、优化提示词或选择供应商。Qwen此举不仅自卷模型，还推动了评测标准的进步。

AI 翻译 · 中文

berryxiaQwen新发布的Qwen-Image-Bench，把T2I评测从“生成”直接拉到“创作”： 56个细粒度facet + ρ=0.92人类对齐Q-Judger，OpenAI、Gemini、Grok、Flux全得重排座次！大家还在死磕提示词对齐，Qwen却证明：真实世界保真度和创意生成能力才是真正差距。新基准1000条prompt+56个rubric，可解释诊断，现有SOTA模型差距肉眼可见。那么，对于我们有什么实际使用价值呢…

宝玉05-27 20:11原文
@OpenAIDevs05-26 19:16原文
OpenAI Blog05-27 00:00原文
shao__meng05-27 00:44原文
AI Will05-27 02:35原文
Geek05-27 04:21原文
rohanpaul_ai05-27 16:09原文
小互05-27 18:50原文
Lenny Rachitsky05-27 20:10原文
Greg Brockman05-27 20:27原文

查看原推