23:27berryxia@berryxia72°Qwen团队推出新基准Qwen-Image-Bench,将文本到图像(T2I)评测从简单的提示词对齐提升到真实世界保真度和创意生成能力。该基准包含56个细粒度评估维度,并配备Q-Judger自动评分器,与人类判断的相关性高达ρ=0.92。测试显示,OpenAI、Gemini、Grok、Flux等现有模型的排名被重新洗牌,差距明显。开发者、Prompt工程师和企业可用此基准评估模型、优化提示词或选择供应商。Qwen此举不仅自卷模型,还推动了评测标准的进步。AI产品QwenT2I评测Qwen-Image-Bench创意生成模型评估10 个信源在谈推荐理由:做T2I模型开发或选型的团队,终于有了一个能区分真实创意能力的评测标准,不再只看基础对齐分,建议直接拿自己的pipeline跑一遍,数据会说话。原文