全部 AI 动态 · AI 热点

6月4日

23:01

阶跃星辰 Stepfun@Stepfun_AI

阶跃星辰的 Step 3.7 Flash 模型已在 Fireworks AI 平台上线。该模型从设计之初就针对推理优化，采用硬件友好的架构和 MTP 辅助解码技术，推理速度可达每秒 400 tokens。Step 3.7 Flash 支持多模态输入，适合在真实工作流中驱动智能体。这一发布为开发者提供了高性能、低延迟的模型选择，尤其适合需要快速响应的应用场景。

AI模型推理模型多模态阶跃星辰 Fireworks AI 智能体

推荐理由：Step 3.7 Flash 以 400 tokens/s 的速度刷新了推理效率，做实时 AI 应用或智能体开发的团队可以直接在 Fireworks AI 上试用，省去自建推理基础设施的麻烦。

原文

22:39

elvis@omarsar0

83°

NVIDIA 发布了 Nemotron 3 Ultra，一个 550B 参数的混合专家（MoE）开源模型，专为长时间运行的智能体任务优化。该模型在推理速度上比同类开源前沿模型快 5 倍，同时将复杂智能体任务的成本降低高达 30%。这标志着开源模型在支持本地长时间运行编程智能体方面迈出了重要一步，为开发者提供了更高效、更经济的替代方案。

AI模型 NVIDIA Nemotron 3 Ultra MoE 开源模型智能体

推荐理由：做智能体或编程助手的开发者终于有了一个开源的高效选择——Nemotron 3 Ultra 在速度和成本上显著优于同类模型，值得立即关注和测试。

原文

22:10

NVIDIA AI@NVIDIAAI

NVIDIA 宣布对 Ultra 模型进行后训练，使其适配 OpenClaw、NousResearch Hermes Agent 和 LangChain 等主流智能体框架。该模型作为开放前沿模型，开发者可针对不同领域定制专用智能体。此举降低了构建复杂 AI 智能体的门槛，推动开源生态发展。

AI模型 NVIDIA Ultra 智能体开源/仓库 LangChain

推荐理由：做智能体开发的团队终于有了官方适配主流框架的开放模型，可以直接基于 Ultra 定制领域专用智能体，省去大量底层适配工作，值得关注。

原文

22:09

NVIDIA AI@NVIDIAAI

76°

NVIDIA 宣布完全开源 Nemotron 3 Ultra 模型，包括模型权重、合成数据和后训练配方。该模型已在 Hugging Face 上架，开发者可自由获取和使用。此举延续了 NVIDIA 在 AI 开源领域的承诺，为研究人员和开发者提供了完整的模型复现与定制能力。Nemotron 3 Ultra 的开放有助于推动大模型生态的透明度和可复现性。

AI模型开源/仓库 Nemotron 3 Ultra NVIDIA Hugging Face 训练配方

推荐理由：NVIDIA 把 Nemotron 3 Ultra 的权重、数据和训练配方全部开源，做模型复现或定制训练的团队可以直接下载使用，省去从头训练的昂贵成本。

原文

21:27

NVIDIA AI@NVIDIAAI

93°

NVIDIA 今日正式推出 Nemotron 3 Ultra，一款 550B 参数的 MoE（混合专家）开源模型，专为长时间运行的智能体任务设计。相比其他开源前沿模型，该模型推理速度提升 5 倍，复杂智能体任务成本降低高达 30%。Nemotron 3 Ultra 旨在解决长周期 AI 任务中的效率与成本瓶颈，为开发者提供更经济、更快速的智能体部署方案。NVIDIA 强调其“前沿智能”级别性能，并保持开源，进一步推动 AI 生态发展。

AI模型 NVIDIA Nemotron 3 Ultra MoE 开源模型智能体

推荐理由：做智能体开发和部署的团队终于有了一个兼顾性能与成本的开源选择——Nemotron 3 Ultra 的 5 倍推理加速和 30% 成本降低值得直接上手测试。

原文

16:45

AI Will@FinanceYF5

72°

微软在 Microsoft Foundry 平台一次性推出七款新模型，强调“零蒸馏”技术，即模型完全由原始训练数据生成，未经过蒸馏压缩，保证了更高的原始性能和透明度。其中多模态模型已于今日在 OpenRouter 上线，Thinking 模型即将登陆 OpenRouter、Fireworks AI 和 Baseten 等平台。这一举措为开发者提供了更多高质量、可溯源的模型选择，尤其适合对模型纯净度和可解释性有要求的场景。

AI模型微软零蒸馏多模态模型 Thinking模型 OpenRouter

推荐理由：零蒸馏模型意味着更高的原始性能和可追溯性，做模型评估或对数据纯净度敏感的团队值得关注，可以直接在 Foundry 和 OpenRouter 上试用。

原文

13:46

AI Will@FinanceYF5

精选

李飞飞和 World Labs 团队指出，当前被统称为「世界模型」的技术实际上包含三种截然不同的方向：视频模型、游戏生成和物理引擎。它们虽然共享同一名称，但在目标、方法和应用上差异巨大。视频模型侧重预测像素序列，游戏生成关注交互式环境构建，物理引擎则强调真实物理规律模拟。这一澄清有助于避免概念混淆，推动各方向更精准的研究与落地。

AI模型世界模型视频模型游戏生成物理引擎李飞飞

推荐理由：做 AI 研究或产品的人经常被「世界模型」这个词搞混——李飞飞帮你拆清楚了，看完能少走弯路，建议点开。

原文

13:01

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 发布 Step 3.7 Flash 模型，主打高智能与高速度的平衡。该模型采用 MTP 辅助解码技术，输出速度超过 400 tokens/s，具备更强的智能体性能和原生多模态能力。模型权重以 Apache 2.0 协议开源，适合生产级智能体工作负载。独立评测者 @ArtificialAnlys 对其进行了详细评估。

AI模型推理模型开源/仓库智能体多模态 StepFun

推荐理由：做智能体应用或需要高吞吐推理的团队，Step 3.7 Flash 的开源高速度方案值得直接拿来用，尤其适合生产环境部署。

原文

12:49

Fireworks AI@FireworksAI_HQ

精选72°

Step 3.7 Flash 是阶跃星辰（StepFun）发布的 198B 稀疏 MoE 视觉语言模型，专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器，支持原生多模态理解和行动，可靠工具使用，以及增强的网页和视觉搜索。在真实智能体工作负载下，推理速度可达 400 tok/sec，并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。

AI模型视觉语言模型稀疏MoE 推理效率智能体 StepFun

推荐理由：多数实验室事后才考虑推理效率，而 Step 3.7 Flash 从设计之初就为推理优化，做智能体应用和视觉语言模型的开发者可以直接试用，感受 400 tok/sec 的流畅体验。

原文

12:18

小互@imxiaohu

78°

Google 发布了 Gemma 4 12B 开源模型，采用无编码器架构，能直接处理文字、图像、音频和视频四种输入，无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行，4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言，并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛，让普通用户也能在本地运行全模态模型。

AI模型 Gemma 4 开源模型多模态无编码器架构本地推理

推荐理由：无编码器架构让多模态模型不再依赖专用编码器，16GB 笔记本就能跑全模态 AI，做本地 AI 应用或边缘计算的开发者可以直接试试。

原文

11:44

lmarena.ai@lmarena_ai

精选76°

MiniMax M3 模型在 LMSYS Arena 上线，在 Code Arena: Frontend 排名第 7，得分 1531，与 GLM-5.1 不相上下。该模型以每百万 token 输入 0.60 美元、输出 2.40 美元的价格，在其价位上推动了帕累托前沿。MiniMax M3 是首个结合编码与智能体前沿能力的开源权重模型，在 SWE-Bench Pro 上达 59.0%，支持 1M 上下文，并原生支持多模态。权重和技术报告将在约 10 天内发布。

AI模型 MiniMax M3 编码模型开源权重智能体多模态

推荐理由：MiniMax M3 以极低价格实现了顶级编码性能，做前端开发或智能体应用的团队值得关注，性价比突出。

原文

10:54

小互@imxiaohu

78°

Ideogram 发布了首个开源 AI 图像模型 Ideogram 4.0，宣称在文字渲染和版面控制上达到了开源领域的新高度。该模型引入了边界框（bounding box）控制，允许用户用坐标精确指定每个元素在画面中的位置。同时，它支持结构化 JSON 提示词，不再局限于纯文本 prompt。在文字渲染方面，英文 OCR 准确率达到 0.97（X-Omni 基准测试），并支持中日韩等非拉丁文字的密集渲染。这一发布大幅降低了高质量可控图像生成的门槛，对设计师和开发者意义重大。

AI模型 Ideogram 4.0 开源图像模型文字渲染版面控制边界框

推荐理由：做设计或内容生成的团队终于有了开源可控的图像模型——边界框和 JSON 提示词让排版和布局不再靠运气，建议直接上手试试。

原文

10:53

lmarena.ai@lmarena_ai

精选

MiniMax M3 在 Document Arena 中排名第14位，该榜单评估模型的文档分析和长内容推理能力。M3 在同等价格点上表现优异，进一步优化了帕累托前沿。这一成绩体现了 MiniMax 在性价比上的竞争力。

AI模型 MiniMax M3 Document Arena 文档分析推理模型

推荐理由：MiniMax M3 文档能力排名 14

原文

10:53

小互@imxiaohu

The Decoder 的评测显示，Ideogram 4.0 在基准 prompt 上大幅超越 Midjourney v8，与 FLUX 大致持平，但不及 GPT Image 2、Nano Banana Pro 和 Luma Uni-1.1。这一结果说明 Ideogram 4.0 在图像生成质量上已跻身第一梯队，但仍有顶级模型领先。对于关注 AI 图像生成工具的创作者和开发者，这是一次重要的性能对比参考。

AI模型 Ideogram 4.0 Midjourney v8 FLUX 图像生成模型评测

推荐理由：图像生成赛道竞争白热化，Ideogram 4.0 直接对标 Midjourney v8 和 FLUX，做 AI 绘画的团队值得关注这份横向评测，看看新模型是否值得切换。

原文

10:20

berryxia@berryxia

76°

AI模型世界模型空间智能李飞飞 World Labs 模拟器

推荐理由：李飞飞把被滥用的「世界模型」概念理清了，做计算机视觉、机器人或生成式 AI 的开发者能直接对照自己的研究方向找到定位，建议点开看完整分类法。

原文

10:19

berryxia@berryxia

78°

OpenMOSS团队发布开源模型MOSS-Audio，首次将语音、音乐和环境音统一建模，实现音频语言统一。该模型能同时转录语音、识别环境音、理解音乐情绪，并生成文本描述或执行下游任务。它登顶Hugging Face Trending第一，代码和模型权重完全开源可商用。这颠覆了音频AI作为视觉/文本附属品的认知，让普通开发者能本地搭建音频Agent。开源社区在音频多模态领域的速度和开放度已领先闭源方案。

AI模型开源/仓库音频模型多模态 MOSS-Audio 智能体

推荐理由：做音频Agent或播客工具的开发者终于不用在闭源高价和割裂方案间纠结——MOSS-Audio一个模型搞定语音+声音+音乐，直接本地跑，建议立刻拉下来试试。

原文

10:05

歸藏(guizang.ai)@op7418

精选

Reve 2.0 是一种新图像模型，支持原生4K分辨率输出。它提供类似PS的分层编辑能力，用户可直接点击图像中任意部分进行选中和修改，无需中间处理步骤。该功能简化了局部图像编辑流程，无需传统选区工具。

AI模型 Reve 2.0 图像编辑 4K生成智能分割

推荐理由：点哪改哪，4K输出

原文

10:00

Jeff Dean@JeffDean

精选

谷歌发布Gemma 4 12B模型，采用Apache 2.0许可证开放权重。该模型采用无编码器多模态架构，统一处理文本、图像等输入。12B参数规模可在笔记本电脑上直接运行，兼顾边缘效率与高级推理。

AI模型 Gemma 4 12B Google Apache 2.0 多模态开源模型

推荐理由：12B模型笔记本就能跑

原文

08:22

berryxia@berryxia

Google 昨晚发布了 Gemma 4 12B 多模态大模型，该模型支持文本和图像输入，最低只需 16GB 内存即可运行。这降低了多模态模型的本地部署门槛，适合个人开发者和资源受限的环境。与 Qwen 等同类模型的对比结果值得关注，可能影响开源多模态模型的竞争格局。

AI模型多模态模型 Gemma 4 Google 本地部署开源模型

推荐理由：多模态模型本地运行门槛进一步降低，做 AI 应用或本地部署的开发者可以关注 Gemma 4 与 Qwen 的对比，评估是否值得迁移或尝试。

原文

08:10

Latent.Space@latentspacepod

精选72°

Axiom Math AI 创始人兼 CEO Carina Hong 在播客中解释，数学验证可能是从代码智能体迈向 AGI 的关键。她认为，通过 Lean 等形式化证明工具，可以将推理转化为更强的奖励信号，从而扩展 AI 的“聪明”而非仅仅修复幻觉。Axiom 将市场定位为所有 AI 生成的代码，并强调未来 AI 的瓶颈可能不是生成，而是验证。该方法还能以自验证方式证明研究猜想。

AI模型 Axiom 数学验证 AGI 形式化证明推理模型

推荐理由：数学验证正在成为 AI 推理的下一个突破口，做代码智能体或形式化验证的开发者值得关注——这可能是从“生成”到“验证”的范式转变。

原文

07:42

Ideogram@ideogram_ai

Ideogram 4.0 在第三方评测平台 DesignArena 的排行榜上成为全球第一的开源权重文生图模型。其性能仅次于 OpenAI 和 Google 的闭源模型，在开源模型中处于领先地位。该模型提供前沿质量、完全可定制性和数据隐私保护。这标志着开源文生图模型在质量上又迈出了一大步。

AI模型 Ideogram 4.0 开源/仓库文生图模型 DesignArena 排行榜

推荐理由：开源社区终于有了一个能接近闭源巨头（OpenAI/Google）的文生图模型，做图像生成应用或研究的团队可以直接下载权重，享受前沿质量与数据隐私。

原文

06:42

Justine Moore@venturetwins

AI 领域术语“世界模型”被过度使用，令人困惑。李飞飞博士在一篇文章中将其拆解为三个核心功能，并预测了未来发展方向。该文章旨在澄清概念，帮助从业者理解世界模型的实际作用。文章还提供了对世界模型未来趋势的洞察，对于关注 AI 前沿研究的读者具有参考价值。

AI模型世界模型李飞飞 AI 术语概念澄清未来预测

推荐理由：李飞飞把最混乱的 AI 术语讲清楚了，做 AI 研究或产品的人看完能少走弯路，建议点开。

原文

06:06

Sundar Pichai@sundarpichai

88°

Google CEO Sundar Pichai 宣布推出 Gemma 4 12B 模型，该模型在体积和性能之间取得平衡，可在配备 16GB VRAM 的笔记本电脑上本地运行。它支持多步推理和智能体工作流，采用 Apache 2.0 开源许可。同时，Gemma 4 系列下载量已超过 1.5 亿次。该模型为开发者提供了在本地设备上部署强大 AI 能力的新选择。

AI模型 Gemma 4 12B 本地运行开源推理模型

推荐理由：对于想在笔记本上跑本地 AI 的开发者，Gemma 4 12B 是难得的小体积高性能选择，16GB VRAM 就能运行，建议直接下载试试。

原文

04:36

lmarena.ai@lmarena_ai

Reve 2.0 在 Text-to-Image Arena 中取得 1280 分，排名第二，超越 Nano Banana 2、MAI-Image-2.5 和 GPT-Image-1.5-High Fidelity，相比 v1.5 提升 125 分。该模型号称全球最佳 4K 图像模型，采用全新布局生成与编辑技术，首次实现可触摸的精细图像创作。Reve 团队宣布今日正式发布 Reve 2.0，强调其精准布局能力让用户能生成和编辑任意图像。这一进展标志着文生图领域在分辨率和控制精度上的重要突破。

AI模型 Reve 2.0 文生图 4K图像布局生成竞技场排名

推荐理由：文生图竞技场排名大洗牌，做 AI 图像生成或内容创作的团队值得关注——Reve 2.0 的 4K 精度和布局控制能力可能改变高质量图像生成的标准，建议点开看看它如何超越 GPT-Image。

原文

04:12

a16z@a16z

精选

World Labs CEO李飞飞博士在a16z访谈中指出，语言模型擅长掌握概念、词汇和推理，但物理世界运行在空间与时间的基底上。她认为世界模型学习空间和时间的统计结构，例如光如何落在表面、物体如何响应力的物理规律。她强调语言让机器能谈论世界，而世界模型将让机器理解、想象、推理并与世界互动。

AI模型 Fei-Fei Li World Labs 世界模型空间智能

推荐理由：李飞飞讲世界模型和语言模型的本质区别

原文

03:54

lmarena.ai@lmarena_ai

精选

Reve 2.0 在 Arena 基准上相较 v1.5 总分提升125点。最大增益出现在文本渲染、卡通、动漫与奇幻、照片级真实与电影画面以及肖像等子类别。在图像编辑任务中，Reve 2.0 分别取得多图像编辑第7名和单图像编辑第9名。

AI模型 Reve 2.0 Reve v1.5 图像生成图像编辑

推荐理由：Reve 2.0 比 v1.5 提升125分

原文

02:55

elvis@omarsar0

78°

Miso One 是一个 8B 参数的开源文本转语音模型，具备真实情感范围，能表达温暖、犹豫和兴奋等情绪，告别机械感。它专为短视频、播客和教育内容等配音场景设计，推理延迟仅 110 毫秒，快于人类反应时间。模型权重完全开源，支持自托管、微调和数据隐私保护，适合将语音集成到工具和产品的开发者。

AI模型 Miso One 文本转语音情感语音开源/仓库配音

推荐理由：做语音合成或配音工具的开发者终于有了一个情感丰富且开源的 TTS 模型——Miso One 的 8B 参数和 110ms 延迟让实时配音成为可能，建议直接克隆仓库试试。

原文

02:45

Amjad Masad@amasad

78°

尽管 GPT 5.5 在 SWE 基准测试中表现最佳，但 Opus 4.8 在端到端应用创建任务上仍保持价格与性能的双重优势。为此，团队推出了 ViBench——首个基于真实世界任务的应用创建基准测试。该基准旨在更准确地评估模型在实际开发场景中的表现，而非仅关注代码修复或补全。结果显示，Opus 4.8 在 Vibe Coding 场景下依然是最优选择。

AI模型 GPT 5.5 Opus 4.8 ViBench Vibe Coding 基准测试

推荐理由：ViBench 填补了现有基准只测代码修复、不测完整应用创建的空白，做全栈原型或快速验证想法的开发者值得关注——Opus 4.8 可能才是你的性价比之选。

原文

02:42

Google AI Developers@googleaidevs

Google AI 开发者团队宣布推出 Gemma 3 模型，该模型兼容 llama.cpp、MLX、LM Studio、vLLM、Ollama、UnslothAI 和 SGLang 等主流推理框架。权重已同步上传至 Kaggle 和 Hugging Face 平台，开发者可自由下载使用。这一发布意味着 Gemma 3 能无缝融入现有 AI 工具链，降低部署门槛。

AI模型 Gemma 3 Google 推理框架开源/仓库模型部署

推荐理由：Google 终于把 Gemma 3 的兼容性做全了——主流推理框架全覆盖，做本地部署或模型微调的开发者可以直接去 Hugging Face 下载权重，省去适配烦恼。

原文

02:36

Google AI Developers@googleaidevs

78°

Google 发布了 Gemma 4 12B，一款无编码器的多模态模型，可直接在笔记本电脑上运行。该模型去除了传统的视觉和音频编码器，让输入直接进入 LLM 主干，实现高效的多模态推理。在 16GB VRAM 下即可运行复杂智能体工作流，性能接近其 26B 的 MoE 模型。采用 Apache 2.0 许可，适合本地部署和开发。

AI模型 Gemma 4 多模态模型无编码器本地推理 Apache 2.0

推荐理由：无编码器架构让多模态模型更轻量、更高效，做本地 AI 应用或智能体开发的团队可以直接在笔记本上跑，值得一试。

原文

02:35

Demis Hassabis@demishassabis

精选

Google 发布 Gemma 4 12B 模型，庆祝其总下载量突破 1.5 亿次。该模型体积小巧，仅需 16GB VRAM 即可在笔记本上本地运行。采用 Apache 2.0 开源许可证，开发者可自由使用和修改。

AI模型 Gemma Gemma 4 Google 开源模型

推荐理由：小模型也能本地跑，性能强

原文

01:54

Patrick Loeber@patloeber

78°

Google 发布 Gemma 4 12B 模型，采用全新统一架构，去除了独立的多模态编码器，原生支持图像、音频、视频和文本输入。该模型还具备高级智能体推理能力，并首次推出基于 LiteRT 的 macOS 桌面应用。这一架构简化了多模态处理流程，降低了部署门槛，适合本地运行和边缘设备。开发者可立即在 macOS 上体验其多模态与推理能力。

AI模型 Gemma 4 多模态统一架构智能体推理 macOS

推荐理由：Gemma 4 12B 的统一架构让多模态模型更轻量、更易部署，做本地 AI 应用或智能体开发的团队可以直接在 macOS 上试跑，值得关注。

原文

01:28

SiliconFlowAI@siliconflowai

83°

AI模型 MiniMax M3 开源模型编码能力多模态

推荐理由：M3 把编码、长上下文和多模态三合一开源了，做 AI 应用开发的团队可以直接在 SiliconFlow 上低成本试用，编码能力还超过了 GPT-5.5，值得上手体验。

原文

01:23

Ideogram@ideogram_ai

78°

AI模型 Ideogram 4.0 开源/仓库图像生成生成式媒体设计

推荐理由：Ideogram 4.0 开源让图像生成模型更易定制，做设计工具或内容创作的团队可以直接上手尝试，值得关注。

原文

01:21

Fireworks AI@FireworksAI_HQ

78°

MiniMax 发布了新模型 M3，其核心创新是 MiniMax Sparse Attention (MSA) 机制，在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作，为本次发布提供推理支持。用户可前往 minimax.io 试用，模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本，对需要处理超长文档、代码库或对话历史的开发者意义重大。

AI模型 MiniMax M3 稀疏注意力长上下文推理加速

推荐理由：长上下文推理的瓶颈被 MSA 大幅缓解，做 RAG、长文档分析或大上下文应用的团队值得立即体验，速度提升意味着更低的成本和更好的用户体验。

原文

01:18

Geek@geekbb

Google 发布了 Gemma 4 12B 模型，这是一款统一的无编码器多模态模型，专为在笔记本电脑上高效运行而设计，采用 Apache 2.0 许可证。该模型在边缘效率与高级推理之间取得了平衡，适合本地部署。对于 Mac mini 用户来说，这可能是一个理想的本地 AI 模型选择，因为其轻量级设计和高性能推理能力。

AI模型 Gemma 4 12B 本地模型多模态 Mac mini 开源

推荐理由：Mac mini 用户终于有了一个高性能的本地多模态模型选择——Gemma 4 12B 在笔记本上就能跑，做本地 AI 开发或隐私敏感应用的团队可以直接试试。

原文

01:14

Justine Moore@venturetwins

AI模型图像生成开源/仓库 Ideogram AI 模型发布 AI 艺术

推荐理由：图像生成模型终于有了开源权重版本，做 AI 艺术或需要定制化图像生成的开发者可以直接下载微调，值得一试。

原文

01:14

Justine Moore@venturetwins

VentureTwins 在 X 上分享了对某模型的评测，指出该模型的一大优点是既能处理简短提示词也能处理长提示词，并且都能很好地遵循指令。他举例说明，在 WIRED 图片中他给出了完整文案，而在另外两张图中只给了一句模糊的指导，模型就自动完成了其余内容。这表明该模型在指令遵循能力上表现突出，对提示词长度不敏感，适合需要精确控制或快速生成内容的场景。

AI模型模型评测指令遵循提示词内容生成 VentureTwins

推荐理由：对提示词长度和复杂度不敏感，做内容生成或创意设计的团队可以试试，能省去反复调优提示词的麻烦。

原文

01:09

Justine Moore@venturetwins

72°

Ideogram 4.0 是一款新发布的开源图像模型，权重可下载，支持在自有硬件上运行和微调。该模型在文本渲染、高分辨率图像生成和设计方面表现优异，被官方称为“世界上最好的开源图像模型”。目前已在所有 Ideogram 计划和 API 上可用。用户可下载权重、用自己的数据微调，并在本地硬件上运行。

AI模型开源/仓库图像生成文本渲染设计 Ideogram

推荐理由：开源图像模型又添猛将，做设计、生成海报或需要高质量文本渲染的团队可以直接下载权重微调，值得一试。

原文

01:03

Hugging Face@huggingface

88°

AI模型图像生成开放权重 Ideogram v4 开源

推荐理由：开放权重意味着你可以自由微调和部署，做图像生成应用或研究的团队可以直接下载使用，值得关注。

原文