AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Qwen-Image-Bench×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月28日
23:27
23:27berryxia@berryxia
72°
Qwen团队推出新基准Qwen-Image-Bench,将文本到图像(T2I)评测从简单的提示词对齐提升到真实世界保真度和创意生成能力。该基准包含56个细粒度评估维度,并配备Q-Judger自动评分器,与人类判断的相关性高达ρ=0.92。测试显示,OpenAI、Gemini、Grok、Flux等现有模型的排名被重新洗牌,差距明显。开发者、Prompt工程师和企业可用此基准评估模型、优化提示词或选择供应商。Qwen此举不仅自卷模型,还推动了评测标准的进步。
AI产品QwenT2I评测Qwen-Image-Bench创意生成模型评估

推荐理由:做T2I模型开发或选型的团队,终于有了一个能区分真实创意能力的评测标准,不再只看基础对齐分,建议直接拿自己的pipeline跑一遍,数据会说话。
原文
精选全部日报登录