01:23Ideogram@ideogram_ai78°Ideogram 宣布开源其最新模型 Ideogram 4.0,旨在与开发者、研究人员和企业合作,共同探索生成式媒体与设计的新前沿。该模型在图像生成质量、风格多样性和文本渲染方面有显著提升。开源版本已在 GitHub 上发布,技术细节可在官网查看。此举有望降低生成式 AI 的使用门槛,促进社区创新。AI模型Ideogram 4.0开源/仓库图像生成生成式媒体设计4 个信源在谈推荐理由:Ideogram 4.0 开源让图像生成模型更易定制,做设计工具或内容创作的团队可以直接上手尝试,值得关注。原文
01:19Ideogram@ideogram_aiIdeogram 4.0 现已通过多个合作伙伴平台开放使用,包括 Hugging Face、ComfyUI、Fal、Runware、Magnific、Krea AI、Leonardo AI、Picsart、Cloudflare、Replicate、Gamma App、Flora AI 和 Kittl Design。这一更新意味着用户可以在熟悉的工具和平台上直接使用 Ideogram 的最新图像生成模型,无需切换环境。对于依赖这些平台进行创意工作的设计师和开发者来说,这大大降低了使用门槛,提升了工作流效率。AI产品Ideogram 4.0图像生成平台集成Hugging FaceComfyUI4 个信源在谈推荐理由:Ideogram 4.0 覆盖了主流 AI 图像平台,做设计或内容创作的团队可以直接在常用工具里体验最新模型,省去切换麻烦。原文
01:14Justine Moore@venturetwinsIdeogram AI 团队发布了其最新模型,该模型为开源权重,支持多种风格的图像生成。创始人 Mo Norouzi 及团队在 X 上宣布了这一消息,并展示了在测试阶段生成的示例图片。模型的开源性质允许开发者基于自己的数据进行微调,这为个性化图像生成和 AI 艺术创作提供了新的可能性。此举在 AI 社区引发关注,被认为将推动图像生成技术的民主化。AI模型图像生成开源/仓库Ideogram AI模型发布AI 艺术推荐理由:图像生成模型终于有了开源权重版本,做 AI 艺术或需要定制化图像生成的开发者可以直接下载微调,值得一试。原文
01:09Justine Moore@venturetwins72°Ideogram 4.0 是一款新发布的开源图像模型,权重可下载,支持在自有硬件上运行和微调。该模型在文本渲染、高分辨率图像生成和设计方面表现优异,被官方称为“世界上最好的开源图像模型”。目前已在所有 Ideogram 计划和 API 上可用。用户可下载权重、用自己的数据微调,并在本地硬件上运行。AI模型开源/仓库图像生成文本渲染设计Ideogram推荐理由:开源图像模型又添猛将,做设计、生成海报或需要高质量文本渲染的团队可以直接下载权重微调,值得一试。原文
01:03Hugging Face@huggingface88°Ideogram 发布了其最新、最强的 v4 图像模型,并开放了模型权重。该模型号称是“世界上最好的开放图像模型”,用户可下载权重、在自己的数据上微调,并运行在自己的硬件上。目前已在所有 Ideogram 计划和 API 上可用。此举将最先进的图像生成能力与开放权重相结合,对 AI 图像生成社区意义重大。AI模型图像生成开放权重Ideogramv4开源推荐理由:开放权重意味着你可以自由微调和部署,做图像生成应用或研究的团队可以直接下载使用,值得关注。原文
00:45a16z@a16z精选72°Ideogram 4.0 正式发布,并宣布开源权重。该模型被官方称为“世界上最好的开源图像模型”,支持用户下载权重、在自有数据上微调,并可在本地硬件上运行。目前已在所有 Ideogram 套餐和 API 上可用。这一举措将推动图像生成领域的开源生态发展,为开发者和创作者提供更多自主权和灵活性。AI模型开源/仓库图像生成Ideogram 4.0模型权重本地部署4 个信源在谈推荐理由:图像生成领域终于有了一个真正能打的开源模型——Ideogram 4.0 权重可下载、可微调、可本地跑,做 AI 图像应用或研究的团队可以直接上手试试。原文
00:30lmarena.ai@lmarena_aiIdeogram 4.0 开源模型在 Text-to-Image Arena 中排名第8,成为该榜单上最强的开源图像生成模型。该模型得分为1204,性能接近闭源模型 Nano Banana Pro。Ideogram 4.0 支持权重下载、微调和本地部署,已在所有 Ideogram 计划和 API 上线。这一发布标志着开源图像生成模型在质量上迈出了重要一步。AI模型开源/仓库图像生成IdeogramText-to-Image Arena模型评测推荐理由:开源图像生成模型终于追上闭源水平了,做 AI 绘画应用或自建图像生成管线的开发者可以直接下载权重和微调,值得试试。原文
00:23Replicate@replicate精选Ideogram 4.0 图像模型正式发布,原生支持 2K 分辨率,并显著提升了排版能力。该模型完全开源,用户可下载权重进行微调,并在本地硬件上运行。模型已上线所有 Ideogram 计划和 API。此前版本在文本渲染方面较弱,4.0 版本在这一领域取得了突破。AI模型IdeogramIdeogram 4.0开源模型图像生成2K分辨率4 个信源在谈推荐理由:Ideogram 4.0 开源,2K原生,排版强原文
00:13Hugging Face@huggingface精选Ideogram 推出了最新的 v4 图像生成模型,并开放了模型权重。该模型自称是目前最强的开放图像模型,用户可下载权重在自己的硬件上运行,并基于自有数据进行微调。v4 模型已在 Ideogram 所有订阅计划和 API 上可用。AI模型Ideogramv4开放权重图像生成推荐理由:Ideogram 开放最强 v4 图像模型,可自部署微调原文
23:58Ideogram@ideogram_ai精选Ideogram 4.0 正式发布,声称是当前最好的开源图像模型。模型权重可下载,支持用户在自己的数据上微调并在本地硬件运行。该模型已上线所有 Ideogram 订阅计划和 API。AI模型Ideogram开源模型图像生成推荐理由:Ideogram 4.0 开源了,能自己微调原文
14:13宝玉@doteyOpenAI 的 GPT Image Gen V2 在生成逼真图片方面取得显著进展,用户 Emily 分享的示例展示了模型能根据详细提示生成高度真实的手机自拍截图。该图片包含低分辨率、运动模糊、美颜滤镜、压缩伪影等真实手机照片的典型特征,甚至模拟了中文短视频应用的界面元素。这一能力让 AI 生成的图片在视觉上几乎无法与真实照片区分,引发对深度伪造和内容真实性的讨论。AI产品GPT Image Gen V2图像生成深度伪造内容安全OpenAI10 个信源在谈推荐理由:AI 生成图片的真实感已经跨越了恐怖谷,做内容创作、社交媒体运营或关注 AI 安全的人,建议点开看看这组截图——你很可能分不清真假。原文
09:52berryxia@berryxia精选微软AI今日发布了七个全新MAI模型,包括MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5等,覆盖推理、编码、图像、语音和转录任务。这些模型是从零开始、使用干净数据训练,不依赖蒸馏,强调血统纯净。其中MAI-Code-1-Flash在SWE-Bench Verified上达到71.6分,超越Claude Haiku 4.5,且节省60% token。MAI-Image-2.5在图像编辑和文本生图排名靠前,已集成到PowerPoint和OneDrive。微软的策略是构建专精任务、可协作的模型家族,而非追求单一通用大模型。AI模型微软MAI模型编程助手推理模型图像生成5 个信源在谈推荐理由:微软这次反主流而行,用干净数据从零训练专精模型,做AI开发或选型的人值得关注——MAI-Code-1-Flash在编码任务上性价比突出,Copilot用户可以直接体验。原文
08:25OpenRouter@OpenRouterAIOpenRouter 宣布上线微软三款新 AI 模型:MAI-Image-2.5(图像生成)、MAI-Transcribe-1.5(语音转文字)和 MAI-Voice-2(语音合成)。这些模型通过 OpenRouter 平台可直接调用,降低了开发者使用微软最新 AI 能力的门槛。此举意味着开发者无需单独申请 Azure 权限,即可在统一 API 下体验微软的多模态模型。对于需要图像生成、语音识别或语音合成的团队,这是一个便捷的新选择。AI产品微软OpenRouter图像生成语音识别语音合成5 个信源在谈推荐理由:微软的多模态模型终于能在 OpenRouter 上直接调用了,做图像生成、语音转文字或语音合成的开发者可以省去 Azure 申请流程,直接上手试。原文
08:22lmarena.ai@lmarena_ai微软在官方博客中介绍了其最新的图像生成模型 MAI-Image-2.5。该模型在图像质量、细节和多样性方面有显著提升,旨在为开发者和企业提供更强大的图像生成能力。MAI-Image-2.5 的发布标志着微软在 AI 图像领域的重要进展,可能对内容创作、设计等行业产生深远影响。目前该模型的具体技术细节和应用场景尚未完全公开,但预计将集成到微软的 AI 产品生态中。AI模型微软MAI-Image-2.5图像生成AI模型内容创作5 个信源在谈推荐理由:微软在图像生成赛道的新动作值得关注,做内容创作或 AI 应用开发的团队可以看看这个模型能否提升你的工作流效率。原文
08:12lmarena.ai@lmarena_ai精选76°微软在Build大会上发布了七款全新的MAI系列模型,涵盖推理、代码、图像、转录和语音等能力。这些模型从零开始训练,基于干净的数据溯源,设计注重效率,并作为模型家族无缝协作。其中MAI-Image-2.5是图像生成模型,其他模型包括推理、代码生成、语音识别等。这标志着微软在自研AI模型上的重大投入,旨在为开发者提供一体化AI解决方案。AI模型微软MAI模型Build大会图像生成推理模型5 个信源在谈推荐理由:微软一口气推出七款自研模型,覆盖推理到语音全场景,做AI应用开发的团队可以直接集成,省去拼凑多家模型的麻烦。原文
08:12OpenRouter@OpenRouterAI微软发布 MAI-Image-2.5 模型,在文本到图像和图像到图像排行榜上分别位列第3和第2,性价比领先市场。该模型支持精准的图像生成与编辑,目前已在 OpenRouter 平台上线。对于需要高质量图像生成且预算有限的团队,这是一个值得关注的选择。AI模型微软MAI-Image-2.5图像生成图像编辑OpenRouter5 个信源在谈推荐理由:微软 MAI-Image-2.5 以市场领先的性价比登顶排行榜,做图像生成或编辑的团队可以直接在 OpenRouter 上试用,省下不少成本。原文
01:06宝玉@doteybaoyu-image-gen Skill 新增对 Codex-cli 作为 Provider 的支持,允许用户在 Claude Code、hermes agent 等 Agent 中直接调用 Codex 生成图像,无需额外使用 Codex 客户端。该功能由社区 PR 贡献,前提是用户已安装 codex cli 并拥有订阅。这一更新简化了 Agent 内图像生成的流程,提升了开发者的使用便利性。AI产品AgentCodex-cli图像生成开源/仓库baoyu-image-gen推荐理由:对于在 Claude Code 等 Agent 中做自动化工作流的开发者,这个 Skill 省去了切换工具的麻烦,可以直接在对话中调 Codex 出图,值得一试。原文
00:43OpenRouter@OpenRouterAIOpenRouter 发布了图像输出模型的最新排名,显示 GPT Image 2 在上周表现突出,获得了大量关注和互动。该排名基于社区使用和反馈数据,反映了当前图像生成模型的热度趋势。GPT Image 2 的快速增长表明其在图像生成质量和效率上获得了用户认可。这一排名为开发者和创作者选择图像生成工具提供了参考。AI产品图像生成GPT Image 2OpenRouter模型排名AI 工具推荐理由:做图像生成或 AI 内容创作的团队,可以看看哪个模型当前最火、用户反馈最好,直接参考排名选模型试试。原文
22:47Dify@dify_aiPaddleOCR 和 ERNIE-Image 作为官方插件正式登陆 Dify Marketplace。用户现在可以在 Dify 工作流中直接调用文档解析(支持图片、PDF、多语言文档)和图像生成功能,无需额外部署。PaddleOCR 基于 PP-OCRv5 等模型,输出结构化数据用于 RAG 等下游任务;ERNIE-Image 提供免费图像生成,支持 Turbo 模式和 OpenAI 风格 API。这降低了构建文档智能和 AIGC 类 AI Agent 的门槛。AI产品DifyPaddleOCRERNIE-Image文档解析图像生成10 个信源在谈推荐理由:做 RAG 应用或需要文档解析的团队,现在可以直接在 Dify 工作流里用 PaddleOCR 把扫描件变成结构化数据,再配合 ERNIE-Image 生成配图,一条 workflow 搞定。建议试试这个插件组合。原文
11:17OpenRouter@OpenRouterAIComfyUI 新增对 OpenRouter 的支持,用户可直接在工作流中调用 20 多个模型,无需绑定单一 LLM。这一集成降低了切换模型的摩擦,提升了工作流灵活性。开发者可以更自由地组合不同模型完成图像生成、文本处理等任务。相关工作流链接已附在推文中。AI产品ComfyUIOpenRouter模型集成工作流图像生成推荐理由:ComfyUI 用户终于可以摆脱单一模型限制,在同一个工作流里自由切换 20+ 模型,做图像生成或 AI 工作流的团队建议直接试。原文
09:15Geek@geekbb精选Codex 平台新增一个名为 ia... 的 Skill,专门将文章中的抽象概念转化为手绘风格的配图。该 Skill 基于手绘插画算法,无需复杂操作即可自动生成。其代码已开源在 GitHub(helloianneo/ia...),可供开发者直接使用或二次开发。该工具目前获得了 9 个点赞和 1118 次浏览。AI产品CodexSkillGitHub图像生成创意工具推荐理由:给文章配手绘插图很方便原文
23:42AK@_akhaliqMRT(Masked Region Transformer)是一种用于大规模分层图像生成与编辑的新方法。它通过掩码区域机制,能够对图像中的特定区域进行精确的生成或修改,同时保持整体图像的连贯性。该方法在图像编辑任务中表现出色,支持复杂的分层操作,如对象替换、背景修改等。MRT的提出为图像生成和编辑领域提供了更灵活、高效的解决方案,尤其适用于需要精细控制的大规模图像处理场景。论文图像生成图像编辑Transformer掩码区域分层处理推荐理由:MRT解决了图像编辑中区域精确控制与整体连贯性的矛盾,做图像生成和编辑的开发者可以直接尝试,尤其适合需要分层操作的项目。原文
17:58Replicate@replicateKrea AI 的最新版本 Krea 2 现已上线 Replicate 平台。该模型以“美学优先”为核心理念,专注于生成高保真、富有创意的图像。用户可以通过 Replicate 直接使用,无需本地部署。这标志着 Krea 在图像生成领域进一步拓展了可访问性,尤其适合追求视觉品质的创作者。AI产品图像生成Krea 2Replicate美学优先AI 创作推荐理由:Krea 2 把美学放在首位,解决了 AI 图像生成中常见“好看但不够精致”的问题。做设计、插画、广告创意的团队可以直接在 Replicate 上试,省去本地折腾模型的成本。原文
10:04Runway ML@runwaymlRunway 推出了 MCP(Model Context Protocol)服务,允许用户将 Runway 的图像和视频生成能力直接集成到 Claude、ChatGPT、Cursor、Replit 等主流 AI 平台中。该服务支持 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等先进模型,用户无需切换工具即可在原有工作流中生成高质量内容。连接过程仅需数秒,大幅降低了 AI 视频创作的门槛。此举标志着 Runway 从独立工具向平台化生态的转变,为开发者和创作者提供了更灵活的内容生成方式。AI产品RunwayMCP/工具视频生成图像生成AI 集成10 个信源在谈推荐理由:Runway MCP 让视频生成能力直接嵌入你日常使用的 AI 助手和开发环境,做内容创作或 AI 应用的团队可以秒级接入,省去切换工具的麻烦,值得一试。原文
09:50Amjad Masad@amasadRunway 推出 MCP 协议支持,允许用户在 Claude、ChatGPT、Cursor、Replit 等主流 AI 工具中直接调用 Runway 的模型生成图像和视频。支持的模型包括 Gen-4.5、Seedance 2.0、GPT Images 2.0、Kling 等。用户只需在代理中连接 MCP 即可使用,无需切换平台。这大幅降低了 AI 视频创作的门槛,让开发者和创作者能在工作流中无缝集成生成能力。AI产品RunwayMCP/工具视频生成图像生成Replit10 个信源在谈推荐理由:做 AI 视频或图像生成的开发者,终于可以在 Replit/Claude 里直接调用 Runway 的顶级模型,不用来回切换工具,建议试试 MCP 连接。原文
11:18lmarena.ai@lmarena_aiMAI-Image-2.5 是一款新的图像生成模型,将于下周在 MAI Playground 和 Foundry 平台上线。目前该模型已在 Arena 上提供公开早期访问,用户可以通过 arena.ai/image 链接体验。这一发布意味着开发者可以提前试用并评估模型能力,为后续集成做准备。AI产品MAI-Image-2.5图像生成Arena早期访问AI 平台推荐理由:图像生成领域又添新选择,做 AI 图像应用或内容创作的开发者可以趁早访问 Arena 体验 MAI-Image-2.5 的实际效果,抢占先机。原文
07:22berryxia@berryxiaPrismML 发布了 Bonsai Image 4B 扩散模型的 1-bit 和 Ternary 版本,分别仅 0.93GB 和 1.21GB,比全精度模型小 8.3 倍。在 Mac M4 Pro 上生成速度最高提升 5.6 倍,图像质量和提示词遵循度与更大模型相当。同时上线了 Bonsai Studio iOS App,支持 iPhone 本地离线生成图像,无需订阅或 API。这标志着高质量图像生成从云端真正走向个人设备。AI模型端侧模型扩散模型图像生成模型压缩PrismML推荐理由:端侧生图终于不再妥协——Bonsai Image 4B 用极致压缩把云端级质量塞进手机,做移动端 AI 应用或离线创作工具的开发者可以直接在 iPhone 上试,无需联网和付费。原文
16:10xAI@xai72°xAI 宣布 Grok Build 进入 Beta 阶段,面向所有 SuperGrok 和 X Premium+ 用户开放。该工具包含 Plan Mode(计划模式)、Imagine(图像与视频生成)以及 CLI(命令行界面)用于构建自动化和编排任务。用户可通过 x.ai/cli 开始使用。这标志着 Grok 从对话模型向开发平台扩展,为高级用户提供更强大的创作和自动化能力。AI产品GrokxAICLI/工具自动化图像生成推荐理由:Grok 终于有了正经的开发工具——Plan Mode 和 CLI 让自动化任务变得可行,X Premium+ 和 SuperGrok 用户可以直接上手试试,做 AI 工作流的开发者会感兴趣。原文
17:54AI Will@FinanceYF5精选OpenAI 发布 ChatGPT Images 2.0,但核心不是图像模型,而是将图像视为一种语言,融入主干而非附加功能。Altman 强调从 GPT-3 直接跨越到 GPT-5,官方博客以「图像是语言,不是装饰」开篇,表明战略转向。这意味着图像生成与理解将深度集成到对话中,改变用户与 AI 交互的方式。AI产品ChatGPT图像生成多模态OpenAI战略升级7 个信源在谈推荐理由:OpenAI 把图像从附加功能提升为对话主干,做内容创作或产品设计的团队值得关注——这可能会改变你使用 AI 的方式。原文
09:25Ideogram@ideogram_aiIdeogram 推出 MCP 服务,允许用户在 Claude、ChatGPT、Cursor 等聊天界面内直接生成图像、设计并训练自定义模型,无需切换工具。该服务将 Ideogram 的图像生成能力与 AI 助手的对话交互深度整合,使设计流程更流畅。对于需要快速产出视觉内容的团队,这大幅降低了工具切换成本。目前该 MCP 已支持多个主流 AI 平台,开发者可直接集成使用。AI产品MCP/工具图像生成设计智能体IdeogramClaude8 个信源在谈推荐理由:设计团队和内容创作者终于可以在聊天中直接出图、训练专属模型,省去来回切换工具的麻烦,做视觉输出的建议立刻试试。原文
09:23Ideogram@ideogram_aiIdeogram 宣布其 MCP(模型上下文协议)功能已上线,用户可以在所有主流 AI 智能体中直接调用 Ideogram 的图像生成能力。官方提供了完整的设置指南,方便开发者快速集成。这意味着 AI 智能体现在可以原生调用 Ideogram 生成图像,无需切换工具,大幅提升工作流效率。对于依赖多智能体协作的团队,这是一个重要的能力扩展。AI产品MCP/工具图像生成智能体Ideogram集成推荐理由:做 AI 智能体工作流的开发者可以直接集成 Ideogram 的图像生成能力,省去手动切换工具的麻烦,值得立即尝试。原文
10:48eric zakariasson@ericzakariasson精选Cursor 创始人 Eric Zakariasson 分享了内部 Slack 自动化 @drawitpoorly 的诞生故事。该自动化利用 Slack MCP 获取用户头像,再通过图像生成工具将头像重绘成笨拙、潦草的涂鸦风格,并回复到 Slack 线程中。内部 PMF 验证成功后,团队将其推向外部。Cursor 现已支持在 Agents 窗口中创建和管理自动化,新创建的自动化在 7 天内可享 50% 折扣。AI产品CursorSlack MCP自动化图像生成内部工具10 个信源在谈推荐理由:这个案例展示了如何用 Cursor 的自动化功能快速验证内部工具 PMF,做 Slack 集成或趣味 AI 应用的开发者可以直接抄作业。原文
08:01Andrew Ng@AndrewYNgAndrew Ng 宣布与 Google Cloud 合作推出新课程,教授如何构建能生成图像和视频的 AI 智能体。课程重点在于让智能体自我评估输出并迭代改进质量,涵盖三种评估技术:图像-文本相似度评分、LLM 裁判按品牌一致性等自定义标准评分、以及结构化评分表。学员将学习图像和视频提示工程,构建将品牌指南转化为 UI 模型的图像智能体,以及规划多场景解说视频并同步音频的视频智能体。该课程面向希望探索 AI 智能体在视觉内容生成领域应用的开发者。AI产品智能体图像生成视频生成评估技术Google Cloud推荐理由:Andrew Ng 的课程一向实用,这次聚焦图像/视频生成智能体这个少有人深入的方向,做多模态或内容生成的开发者可以直接学起来,掌握让智能体自我迭代的关键技巧。原文
07:59Midjourney@midjourneyMidjourney 今日发布小更新,为 V8.1 模型重新引入了 --no 标志(即反提示功能)。该功能曾在旧版本中存在,允许用户指定不希望出现在图像中的元素(如 --no people 可排除人物)。这一更新回应了用户对 V8 模型缺失该功能的反馈,现在已正式可用。对于需要精确控制图像内容的创作者来说,这是一个实用的工具。AI产品Midjourney图像生成反提示V8.1--no 标志推荐理由:Midjourney 用户终于等来了 V8 的反提示功能,做 AI 图像生成时想排除特定元素(比如人物、物体)的可以直接用 --no 参数,省去反复调整提示词的麻烦。原文
07:59Recraft@recraftaiRecraft 的 V4.1 Utility Pro 模型发布仅一周,就在 Design Arena 2026 图像生成器排行榜的图形设计类别中升至第7名,Elo 评分达1243。该模型与 LumaLabsAI 的 UNI-1.1 和 Black Forest Labs 的 FLUX.2 [flex] 处于同一性能水平,使 Recraft 跻身全球前五的图像生成实验室。目前 Recraft 已有两个模型上榜,团队表示这是重大突破。用户可在 Recraft Studio 中直接体验。AI产品图像生成RecraftV4.1 Utility ProDesign Arena排行榜推荐理由:图形设计师和 AI 创作者又多了一个高性价比的图像生成选择——Recraft V4.1 Utility Pro 一周就冲进前七,性能与头部模型持平,建议试试看能不能替代你现在的工具。原文
00:14rohanpaul_ai@rohanpaul_ai76°中国 AI 实验室商汤开源了 SenseNova U1,这是一个统一的多模态模型,能在单一模型中理解、推理并生成图像和文本。其架构去除了传统的视觉编码器和变分自编码器,在共享表示空间中处理图像和语言,减少了模块间切换和信息损失,提升了生成一致性。该模型在生成信息图、指南、海报、漫画等密集视觉内容时表现出色,据客户基准测试,生成信息图的速度约为 Qwen-Image-2.0 / Seedream-4.5 的两倍,且质量相当。AI模型商汤SenseNova U1多模态模型开源/仓库图像生成推荐理由:商汤的架构创新解决了多模态模型常见的模块间信息丢失问题,做视觉内容生成或信息图设计的团队可以直接用这个开源模型,生成效率翻倍值得一试。原文
12:10OpenRouter@OpenRouterAIxAI 的 Grok 创意套件新增三个模型,已在 OpenRouter 平台上线。Grok Imagine Image Quality 支持照片级图像生成与编辑;Grok Imagine Video 可从文本、图像或参考素材生成短视频;Grok Voice TTS 1.0 提供 5 种语音、覆盖 20 多种语言。这些模型扩展了 Grok 在图像、视频和语音合成方面的能力,为开发者和创作者提供了更多选择。AI产品Grok图像生成视频生成语音合成OpenRouter推荐理由:xAI 一口气推出图像、视频、语音三款模型,做内容创作或 AI 应用的开发者可以直接在 OpenRouter 上调用,省去部署成本,建议试试。原文
02:19rohanpaul_ai@rohanpaul_ai76°HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image,声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer,无需 VAE 和文本编码器,直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理,能先理解用户意图再生成,在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。AI模型HiDreamHiDream-O1-Image图像生成Transformer开源/仓库推荐理由:HiDream 用 8B 参数挑战了传统扩散架构的统治地位,做图像生成或研究的开发者值得关注——它可能改变你对模型效率与架构的认知。原文
20:06Recraft@recraftaiRecraft AI 发布 V4.1 模型,并与 GPT Image 2 High 进行直接对比。同一提示词下,两个模型在氛围、构图、色彩处理和细节表现上差异显著。Recraft V4.1 在艺术风格和细节丰富度上表现突出,而 GPT Image 2 High 更注重写实和一致性。该对比展示了不同 AI 图像生成模型在创意输出上的独特取向,对设计师和内容创作者选择工具具有参考价值。更多对比结果可在 Recraft 博客中查看。AI产品Recraft V4.1GPT Image 2 High图像生成模型对比创意工具推荐理由:做视觉设计和内容创作的团队,选模型前先看对比——同一提示词下风格差异巨大,直接帮你判断哪个更适合你的项目。原文
12:06Paul Couvert@itsPaulAiHiDream-O1-Image 作为 Nano Banana 的开源替代品正式发布,采用 MIT 许可证,支持文本到图像、图像编辑、故事板生成等功能。该模型在文本渲染方面表现突出,提供 Hugging Face 模型和在线演示。这是开源社区在图像生成领域的重要进展,为开发者和创作者提供了更自由的选择。AI模型开源/仓库图像生成文本渲染HiDream-O1-ImageNano Banana推荐理由:图像生成领域终于有了 MIT 许可证的开源强模型,做创意工具或需要文本渲染的开发者可以直接上手试试。原文