精选理由
做T2I模型开发或选型的团队,终于有了一个能区分真实创意能力的评测标准,不再只看基础对齐分,建议直接拿自己的pipeline跑一遍,数据会说话。
Qwen团队推出新基准Qwen-Image-Bench,将文本到图像(T2I)评测从简单的提示词对齐提升到真实世界保真度和创意生成能力。该基准包含56个细粒度评估维度,并配备Q-Judger自动评分器,与人类判断的相关性高达ρ=0.92。测试显示,OpenAI、Gemini、Grok、Flux等现有模型的排名被重新洗牌,差距明显。开发者、Prompt工程师和企业可用此基准评估模型、优化提示词或选择供应商。Qwen此举不仅自卷模型,还推动了评测标准的进步。
AI 翻译 · 中文
Qwen团队推出新基准Qwen-Image-Bench,将文本到图像(T2I)评测从简单的提示词对齐提升到真实世界保真度和创意生成能力。该基准包含56个细粒度评估维度,并配备Q-Judger自动评分器,与人类判断的相关性高达ρ=0.92。测试显示,OpenAI、Gemini、Grok、Flux等现有模型的排名被重新洗牌,差距明显。开发者、Prompt工程师和企业可用此基准评估模型、优化提示词或选择供应商。Qwen此举不仅自卷模型,还推动了评测标准的进步。
Qwen新发布的Qwen-Image-Bench,把T2I评测从“生成”直接拉到“创作”: 56个细粒度facet + ρ=0.92人类对齐Q-Judger,OpenAI、Gemini、Grok、Flux全得重排座次! 大家还在死磕提示词对齐,Qwen却证明:真实世界保真度和创意生成能力才是真正差距。 新基准1000条prompt+56个rubric,可解释诊断,现有SOTA模型差距肉眼可见。 那么,对于我们有什么实际使用价值呢…