HiDream 开源 8B 图像模型,挑战传统扩散架构

HiDream just open-sourced an 8B image model with a…

精选理由

HiDream 用 8B 参数挑战了传统扩散架构的统治地位,做图像生成或研究的开发者值得关注——它可能改变你对模型效率与架构的认知。

AI 摘要

HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image,声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer,无需 VAE 和文本编码器,直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理,能先理解用户意图再生成,在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。

AI 翻译 · 中文

HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image,声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer,无需 VAE 和文本编码器,直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理,能先理解用户意图再生成,在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。

rohanpaul_aiHiDream just open-sourced an 8B image model with a big message behind it: the old diffusion pipeline (VAE-plus-text-encoder) may not be the only serious path left. 8B param, HiDream-O1-Image (8B) claims parity with model