全部 AI 动态 · AI 热点

5月20日

07:10

Clement Delangue@ClementDelangue

精选

Cerebras 正在企业测试中运行 Kimi K2.6，这是一个万亿参数模型。据 Artificial Analysis 测量，其推理速度约为每秒1000个 token，是迄今最快的前沿模型性能。这反驳了此前认为开源大模型无法快速运行的质疑。

推荐理由：Cerebras 让万亿参数模型跑出千 token 每秒

原文

06:53

Jeff Dean@JeffDean

83°

Google 在 #GoogleIO 上发布了 Gemini 3.5 Flash 模型，主打快速与高能力的结合。该模型在几乎所有基准测试上优于 3.1 Pro，尤其在编程方面有巨大进步。其输出速度是其他前沿模型的 4 倍，智能与速度的平衡使其在同类模型中独树一帜。Gemini 3.5 Flash 即日起在 @antigravity 及 Google 产品和 API 中可用。

AI模型 Gemini 3.5 Flash Google 推理模型编程助手速度

推荐理由：对于需要快速响应的 AI 应用开发者来说，Gemini 3.5 Flash 在速度和能力上找到了新平衡点，编程任务尤其受益，建议立即试用。

原文

06:44

Patrick Loeber@patloeber

83°

Google 的 Gemini 3.5 Flash 模型现已正式可用（GA），在智能体和编程任务上达到前沿水平。该模型在复杂长周期任务中表现出色，并在多个挑战性基准测试中超越了上一代 3.1 Pro。同时，它保持了极快的推理速度，适合对延迟敏感的应用场景。开发者可以立即在 Google AI Studio 或 Vertex AI 上使用。

AI模型 Gemini 3.5 Flash 智能体编程助手推理模型 Google

推荐理由：做智能体或编程自动化的开发者终于有了一个又快又强的模型——Gemini 3.5 Flash 在长任务和基准上超越 3.1 Pro，且已 GA 可直接用，建议立刻上手试试。

原文

06:41

Simon Willison@simonw

精选

Google 推出 Gemini 3.5 Flash 模型，推理单价是 Gemini 3 Flash 的 3 倍。该模型将被用于 Google 多项自有产品。Simon Willison 在公开笔记中分析了其定价策略与性能权衡。当前 Gemini 3.5 Flash 在 MMLU 等基准上的得分尚未公布。

AI模型 Gemini 3.5 Flash Gemini 3 Flash Google 模型定价

推荐理由：涨价3倍，Google自己先用

原文

06:27

Justine Moore@venturetwins

精选

Genie是Google DeepMind开发的世界模型。演示中用户选择光球代表场景和角色，模型即时加载世界。用户可通过摇杆像玩游戏一样导航。该交互让用户实时控制世界模型中的环境与角色。

AI模型 Genie Google DeepMind 世界模型交互演示实时模拟

推荐理由：你也能像打游戏一样操控世界模型

原文

04:24

Google AI Developers@googleaidevs

88°

谷歌宣布推出 Gemini 3.5 系列模型，这是其最新一代模型家族，将前沿智能与行动能力相结合。该系列为智能体模型设定了新标准，不仅能推理，还能执行任务。这意味着模型可以自主完成更多实际操作，而不仅仅是生成文本。对于开发者和企业用户来说，Gemini 3.5 有望在自动化、工作流执行等场景中发挥更大作用。

AI模型 Gemini 3.5 智能体推理模型谷歌模型发布

推荐理由：做智能体应用和自动化流程的开发者值得关注——Gemini 3.5 把推理和执行合二为一，能直接减少你写胶水代码的功夫。

原文

04:16

Demis Hassabis@demishassabis

精选

Demis Hassabis 宣布 Gemini Omni 在多模态理解与编辑方面取得重大进展。该模型能处理照片、视频和音频输入，并构建全新场景。初期从视频开始，未来将支持任意输入与输出。用户可上传自己的视频并在其上迭代想法。

AI模型 Gemini Omni 多模态视频编辑场景生成

推荐理由：Gemini Omni能处理视频/音频/图片并构建新场景

原文

04:10

Google Gemini App@GeminiApp

精选

Google 在 Google I/O 上宣布 Gemini 3.5 Flash 从今天起免费向所有用户开放，可在 gemini.google 或移动端使用。该版本是 Gemini 3.5 系列中的轻量级模型，主打快速响应和高性价比。用户无需付费即可体验最新的语言模型能力。

AI模型 Gemini 3.5 Flash Google 免费模型

推荐理由：Google 免费开放 Gemini 3.5 Flash

原文

03:59

Thomas Wolf@Thom_Wolf

76°

Hugging Face 团队发布了名为 Carbon 的 DNA 模型，其速度比当前最先进的 Evo2 快 275 倍，可在单 GPU 上两天内处理整个人类基因组。Carbon 的核心创新在于其独特的 tokenizer：将 DNA 序列切分为 6 碱基的块，同时保留单碱基分辨率，解决了 BPE 分词器在无空格序列上的低效问题。该模型支持 DNA 序列生成、基因结构分析、突变效应预测、蛋白质折叠以及生命树重建等任务。团队还提供了交互式 demo 供用户探索。

AI模型 DNA 模型 Carbon Hugging Face 基因组分析 tokenizer

推荐理由：生物信息学研究者终于有了一个能跑全基因组的超快模型——Carbon 把处理时间从数周压缩到两天内，做基因组分析或蛋白质设计的团队可以直接用 demo 试效果。

原文

03:53

lmarena.ai@lmarena_ai

83°

Google DeepMind 的 Gemini 3.5 Flash 模型在 Code Arena 前端评测中取得显著进步，总分 1507，比上一代 Flash 提升 70 分，甚至超越了之前的 Pro 版本。该模型在消费产品、内容创作工具、数据与分析等子类别中全面领先，输出速度达到 Pro 版本的 2 倍以上。目前 Gemini 3.5 Flash 在 Code Arena 前端排名第 9，在 Text Arena 也位列第 9，并在其价格区间内实现了最佳性价比。

AI模型 Gemini 3.5 Flash Google DeepMind 前端编码 Code Arena 性价比

推荐理由：前端开发者做自动化编码任务时，Gemini 3.5 Flash 以更快的速度和更低的成本超越了 Pro 版本，值得在项目中实测对比。

原文

03:33

NVIDIA AI@NVIDIAAI

NVIDIA AI 发布了一种新架构，结合了混合线性注意力、双分支相机控制、两阶段生成流水线和鲁棒标注流水线。该设计在保持视觉质量的同时，显著提高了动作跟随准确性和吞吐量。适用于视频生成和动作驱动的视觉任务，为高精度、高效率的生成模型提供了新方案。

AI模型 NVIDIA 混合线性注意力双分支相机控制两阶段生成动作跟随

推荐理由：做视频生成和动作跟随的开发者可以关注——NVIDIA 这套架构在精度和吞吐量上都有提升，值得试一下新思路。

原文

03:31

NVIDIA AI@NVIDIAAI

76°

NVIDIA 研究团队开源了 SANA-WM，一个 2.6B 参数的世界模型，能在单张 GPU 上根据一张图片、文本描述和相机轨迹生成 60 秒可控视频。该模型原生支持精确的相机控制，为视频生成和世界模拟提供了新的可能性。SANA-WM 的开源发布降低了高质量可控视频生成的门槛，对内容创作、游戏和仿真领域有重要意义。

AI模型世界模型视频生成相机控制开源/仓库 NVIDIA

推荐理由：NVIDIA 把世界模型的门槛拉到单卡可跑，做视频生成或 3D 仿真的开发者可以直接拿来用，60 秒可控视频不再是云端专属。

原文

03:18

Google DeepMind@GoogleDeepMind

91°

Google DeepMind 正式推出 Gemini 3.5 系列模型，首发版本为 3.5 Flash，号称是迄今为止最强的智能体与编程模型。该模型将前沿智能与现实世界行动能力相结合，专为智能体应用和代码生成场景优化。这一发布标志着 Google 在 AI 模型竞争中进一步强化了实用性和行动能力，对开发者社区和智能体生态有重要影响。

AI模型 Gemini 3.5 智能体编程助手 Google DeepMind 模型发布

推荐理由：做智能体或编程工具的开发者终于有了一个专为行动而生的前沿模型——Gemini 3.5 Flash 直接瞄准了实际应用场景，值得立即上手体验。

原文

03:17

Google AI@GoogleAI

精选

GoogleAI 推出 Gemini Omni 模型，支持从文本、图像、音频等多种输入类型生成内容，初始阶段重点支持视频输入。该模型旨在实现“从任何输入创建任何输出”的目标，但官方未公布具体基准测试成绩或模型参数。推文通过 Twitter 线程形式解释其意义，引发社区关注。

AI模型 Gemini Omni GoogleAI 多模态视频生成

推荐理由：谷歌的万能创作模型来了

原文

03:07

Google Gemini App@GeminiApp

精选

Google在Google IO上发布新模型Gemini Omni，可接受图像、视频和文本作为输入，生成高质量视频。该模型利用Gemini的真实世界知识，使视频内容更加准确和连贯。这是多模态视频生成的重要进展，支持从多种混合输入直接创建视频内容。

AI模型 Gemini Omni Google 视频生成多模态

推荐理由：Google发了能多模态生视频的模型

原文

03:05

Skywork@Skywork_ai

72°

Skywork AI 发布了 SkyClaw-v1.0，一个专为 OpenClaw、Hermes 和 Nanobot 优化的智能体模型。该模型在工具使用和多轮任务执行方面表现更强。同时推出了 SkyClaw-v1.0-lite，一个更快、成本更低的变体版本。这标志着智能体模型在特定工具和任务场景下的专业化方向。

AI模型智能体工具调用多轮任务 SkyClaw Skywork AI

推荐理由：做智能体开发或使用 OpenClaw、Hermes、Nanobot 的团队，现在有了一个专门优化的模型，工具调用和多轮任务能力更强，值得试试看。

原文

02:58

OpenRouter@OpenRouterAI

83°

Google DeepMind 正式推出 Gemini 3.5 系列模型，首发版本为 3.5 Flash，号称是该公司迄今为止最强的智能体和编程模型。该模型将前沿智能与现实行动能力结合，旨在提升 AI 在复杂任务中的自主执行能力。OpenRouter 已同步支持该模型，用户可直接体验。这一发布标志着 Google 在智能体与代码生成领域的重要进展。

AI模型 Gemini 3.5 智能体编程助手 Google DeepMind OpenRouter

推荐理由：做智能体开发或编程自动化的团队值得关注——Gemini 3.5 Flash 把行动能力直接集成到模型里，OpenRouter 上已经能用，建议试试效果。

原文

02:56

OpenRouter@OpenRouterAI

83°

Google DeepMind 的 Gemini 3.5 Flash 模型已在 OpenRouter 平台上线。该模型在编码、智能体任务和工具使用方面超越了 Gemini 3.1 Pro，同时保持了 Flash 级别的价格和速度。它支持 100 万 token 上下文窗口、6.5 万 token 最大输出，并具备多模态能力。输入价格为每百万 token 1.50 美元，输出价格为每百万 token 9 美元。

AI模型 Gemini 3.5 Flash OpenRouter 编码智能体多模态

推荐理由：做编码和智能体开发的团队终于有了更便宜且更强的选择——Gemini 3.5 Flash 在关键任务上超越 Pro 系列，价格却只有 Flash 档位，值得立刻在 OpenRouter 上试试。

原文

02:43

Jeff Dean@JeffDean

91°

Google 在 I/O 大会上发布 Gemini 3.5 系列，首推 3.5 Flash 模型。该模型专为复杂、长周期的智能体工作流设计，在 Terminal-Bench 和 MCP Atlas 等智能体与编程基准上超越 3.1 Pro，运行速度比其他前沿模型快 4 倍。在 Google Antigravity 中优化后，速度可提升至 12 倍。它可作为子智能体协作、高频迭代循环的强大引擎，用于大规模解决实际问题。

AI模型 Gemini 3.5 Flash 智能体编程助手 Google I/O 推理模型

推荐理由：做复杂智能体编排和编程自动化的开发者，终于有了一个又快又强的模型引擎——Gemini 3.5 Flash 在基准上超越前代，速度还快 4 倍，值得立刻上手试。

原文

02:42

Philipp Schmid@_philschmid

83°

Google 宣布 Gemini 3.5 Flash 模型正式全面可用。该模型在编程和智能体任务上超越 Gemini 3.1 Pro，支持 100 万 token 上下文窗口和 6.5 万 token 最大输出，输出速度提升 4 倍。提供四种思考级别（minimal、low、medium、high），并自动保留多轮对话中的思考过程。现已登陆 Google AI Studio、Android Studio、Gemini 企业版等多个平台。

AI模型 Gemini 3.5 Flash 推理模型智能体编程助手 Google

推荐理由：做智能体开发和编程的团队终于有了更快的 Flash 模型——速度提升 4 倍且支持长上下文，建议在 AI Studio 里直接试试 medium 思考级别。

原文

02:20

lmarena.ai@lmarena_ai

76°

Gemini 3.5 Flash 在 Text and Code Arena: Frontend 中排名第9，得分1507，比上一代 Gemini-3 Flash 提升70分。该评测聚焦于真实用户构建应用和网站时的前端编码任务（HTML 和 React）。在子类别中，内容创作工具排名第7，游戏第8，消费产品第8，数据与分析第9，参考设计第10。此外，它在 Text Arena 中整体排名第9，并在其价格区间内实现了最佳 Arena 得分，重新定义了性价比边界。Google DeepMind 团队发布了这一新模型系列，强调其结合前沿智能与真实世界行动能力，特别适合智能体和编码场景。

AI模型 Gemini 3.5 Flash 前端编码智能体性价比 Google DeepMind

推荐理由：Gemini 3.5 Flash 在价格区间内实现了最高 Arena 得分，做前端开发或智能体应用的团队可以直接关注，性价比突出值得一试。

原文

02:09

Logan Kilpatrick@OfficialLoganK

78°

Google 发布了 Gemini 3.5 Flash，号称迄今为止最强大的模型，在智能、速度和成本方面均达到新高度。团队经过 6 个月优化，使其更适用于实际场景。该模型现已全面可用，旨在为开发者提供更高效、更经济的 AI 解决方案。

AI模型 Gemini 3.5 Flash 推理模型成本优化实际应用 Google

推荐理由：Gemini 3.5 Flash 在性能与成本之间找到了新平衡，做 AI 应用开发的团队可以直接部署，值得关注。

原文

02:09

Google Gemini App@GeminiApp

精选

谷歌今天开始推出全新的Gemini 3.5 Flash模型。该模型解锁了多项新功能，具体细节将在后续公布。用户可以期待在Gemini应用中体验这些改进。

AI模型 Gemini 3.5 Flash Google 新功能模型更新

推荐理由：Gemini 3.5 Flash上线，新功能等你尝鲜

原文

01:59

Sundar Pichai@sundarpichai

精选

Gemini 3.5 Flash今天在Google IO大会上正式向所有用户开放，可通过Antigravity及Google产品和API使用。相比3.1 Pro，3.5 Flash在几乎所有基准测试中表现更优，编码能力显著进步。其速度是其他前沿模型的4倍（token/秒），在智能与输出速度的象限图中处于领先位置。

AI模型 Gemini 3.5 Flash Google IO 编码推理模型速度

推荐理由：速度暴涨4倍，编码超强

原文

01:50

Google DeepMind@GoogleDeepMind

精选

Google DeepMind 在推文中宣布 Gemini 3.5 Pro 将于下个月发布。该模型是 Gemini 系列的最新旗舰版本，推文同时提及了 GeminiApp、Google 和 Google AI Studio 等产品。目前具体性能参数尚未公开，官方表示这只是一个开始。

AI模型 Gemini 3.5 Pro Google DeepMind GeminiApp Google AI Studio 旗舰模型

推荐理由：Gemini 3.5 Pro下月见

原文

01:24

Google Gemini App@GeminiApp

精选

Google 在 #GoogleIO 上发布 Gemini 3.5 Flash 模型，号称能快速高效完成日常任务和多步骤创意项目。该模型可处理现实世界复杂问题并帮助用户采取行动。官方表示这是其最佳性能模型。

AI模型 Gemini 3.5 Flash Google GoogleIO 推理模型

推荐理由：Google 新模型，又快又高效

原文

01:23

Logan Kilpatrick@OfficialLoganK

精选

Google 发布新模型 Gemini Omni，支持从文本、图像等任意输入生成视频，类似 Nano Banana 能力。当前可在 Gemini App、Flow 和 YouTube 中使用。API 支持即将推出。

AI模型 Gemini Omni Google 视频生成

推荐理由：Gemini能直接生成视频了

原文

01:17

Google DeepMind@GoogleDeepMind

Google DeepMind推出Gemini Omni，这是其首个可从任何内容生成任何内容的模型，首先聚焦视频生成。该模型结合了Gemini的推理能力与DeepMind的生成式媒体系统，在多模态理解和编辑方面取得进展。它代表了世界理解、多模态和编辑能力的飞跃。目前已开始部署。

AI模型 Gemini Omni Google DeepMind 多模态视频生成

推荐理由：谷歌发布能生成视频的Gemini Omni

原文

5月19日

12:01

Geek@geekbb

72°

阿里巴巴通义千问团队发布了 Qwen 3.7 预览版，包括 Max 和 Plus 两个版本，已在 LMSYS Arena 上线。该模型在文本和视觉任务上表现强劲，使阿里在 Arena 文本榜单升至第6、视觉榜单升至第5。官方表示完整系列模型即将发布，值得期待。

AI模型 Qwen Arena 多模态文本生成阿里

推荐理由：Qwen 3.7 预览版在 Arena 上表现亮眼，阿里排名大幅提升，做多模态或文本生成的应用开发者可以关注后续正式版发布。

原文

11:46

阿里云 Alibaba Cloud@alibaba_cloud

72°

阿里云宣布 Qwen3.7-Max-Preview 模型已上线 Arena 平台，在文本任务中排名第6。该模型是 Qwen3.7 系列的预览版本，预计正式版将很快发布。这一进展展示了阿里云在大语言模型领域的持续投入和竞争力提升。

AI模型 Qwen3.7 阿里云大模型 Arena 文本任务

推荐理由：Qwen3.7 系列即将发布，关注国产大模型进展的开发者可以提前了解预览版表现，为后续集成做准备。

原文

09:15

berryxia@berryxia

72°

Odyssey AI 实验室发布了 Starchild-1，这是全球首个实时多模态世界模型。与以往只能生成画面的世界模型不同，Starchild-1 能同时生成真实世界的声音，实现视觉与听觉的同步融合。视频演示中，画面动态与声音实时匹配，营造出完整的场景模拟。这一突破不仅提升了视频生成的真实感，更被视为向通用世界模型迈出的关键一步，旨在让 AI 真正理解和模拟物理世界。

AI模型世界模型多模态实时生成 AI模拟 Odyssey AI

推荐理由：做 AI 模拟、游戏开发或虚拟现实的人会眼前一亮——Starchild-1 让世界模型从“只看”进化到“又看又听”，实时多模态融合直接拉高了物理模拟的真实感，值得关注它的后续开放计划。

原文

08:39

阿里通义 Qwen@Alibaba_Qwen

76°

阿里 Qwen 团队发布 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview 模型，已在 Arena 平台上线。在文本 Arena 中，Qwen3.7 Max Preview 综合排名第13，阿里成为第6大实验室；数学第7、专家第9、软件与IT第9、编程第10。在视觉 Arena 中，Qwen3.7 Plus Preview 排名第16，阿里升至第5。这标志着阿里在多模态能力上的显著进步，正式版 Qwen3.7 系列即将发布。

AI模型 Qwen3.7 阿里 Arena 推理模型多模态

推荐理由：Qwen3.7 Preview 在数学和编程子项表现突出，做推理和代码任务的开发者可以关注正式版发布，值得一试。

原文

05:47

rohanpaul_ai@rohanpaul_ai

精选

PolyAI 发布 Raven 3.5，一个专为客服场景设计的小型语音 AI 模型，在四个客服基准测试中全面超越 GPT-5 和 Claude Sonnet 4.6，且延迟低于 300 毫秒。该研究证明了领域专用模型在特定任务上可以大幅超越百倍规模的通用模型。同时，PolyAI 推出两款新产品：ADK（代码优先的智能体开发工具包）和 PolyPhone（10 分钟将网站转为语音 AI 代理），推动企业语音 AI 从呼叫中心项目走向快速部署的基础设施。

AI模型 Raven 3.5 客服语音AI 小模型 PolyAI GPT-5

推荐理由：客服团队和语音 AI 开发者可以亲眼看到：小模型专精化路线在延迟和效果上碾压通用大模型，PolyAI 的新工具让 10 分钟部署语音代理成为现实，值得立即关注。

原文

04:03

rohanpaul_ai@rohanpaul_ai

83°

Odyssey 团队推出 Agora-1，一个多智能体世界模型，解决了世界模型在多人交互场景下的核心瓶颈：保持共享现实的一致性。传统世界模型只能处理单玩家预测，而 Agora-1 支持最多 4 个人类或 AI 智能体同时在模拟世界中实时行动，模型需要追踪碰撞、时序、意图和后果。这意味着世界模型从单玩家预测器转变为共享实时环境，其真实性不再只是视觉保真度，而是当多个智能体从不同方向推动世界时，它能否保持连贯。这是对世界模型能否像游戏引擎一样服务多玩家的首次严肃测试。

AI模型世界模型多智能体共享现实模拟引擎 Odyssey

推荐理由：做多智能体模拟或游戏引擎的开发者，Agora-1 展示了世界模型从单机到联机的关键跃迁——共享现实一致性是下一个必须攻克的难题，值得关注其技术细节。

原文

02:19

rohanpaul_ai@rohanpaul_ai

76°

HiDream 开源了 8B 参数的图像模型 HiDream-O1-Image，声称性能与 27B 的 Qwen-Image 等更大模型持平。该模型采用像素级统一 Transformer，无需 VAE 和文本编码器，直接在原始像素上端到端处理。它支持文生图、长文本渲染、指令编辑、主体个性化及故事板生成等多种任务。内置推理驱动的提示代理，能先理解用户意图再生成，在长文本渲染基准上接近 200B+ 模型的表现。这暗示传统扩散管线可能不再是唯一的主流路径。

AI模型 HiDream HiDream-O1-Image 图像生成 Transformer 开源/仓库

推荐理由：HiDream 用 8B 参数挑战了传统扩散架构的统治地位，做图像生成或研究的开发者值得关注——它可能改变你对模型效率与架构的认知。

原文

02:10

腾讯混元 Tencent Hunyuan@TencentCloud

腾讯云与复旦大学联合发布了CYANSQL，一种新的测试时扩展框架，用于复杂自然语言转SQL任务。该框架在BIRD数据集上取得了87.22%的召回率（行业领先）和73.47%的准确率，已被ICDE 2026接收。CYANSQL将驱动腾讯云的TCDataAgent，旨在引领AI原生大数据时代。

AI模型 NL2SQL CYANSQL 腾讯云复旦测试时扩展

推荐理由：NL2SQL是数据库查询的痛点，CYANSQL的高召回率意味着更少漏查，做数据分析或数据库开发的团队值得关注这一新框架。

原文

00:43

Cursor@cursor_ai

精选

Cursor 推出 Composer 2.5，号称其最强模型。该模型在长期任务中有更好的持续工作能力，更可靠地遵循复杂指令。接下来一周，用户使用该模型的额度翻倍。该消息由 Cursor 官方 Twitter 账号发布。

AI模型 Cursor Composer 2.5 推理模型编程助手

推荐理由：最强模型，一周翻倍用

原文

5月18日

23:18

Ethan Mollick@emollick

研究人员发现，Claude 和 GPT 等大语言模型在生成输出时，有时会暴露无关的历史记录，例如在幻灯片页脚添加“更好、更针对性的版本”等注释，或在文档中提及改进过程。这种现象可能导致用户无意中泄露对话上下文或敏感信息，影响输出质量和隐私安全。开发者在使用模型生成内容时需注意检查输出，避免历史痕迹外露。

AI模型 Claude GPT 隐私安全输出质量模型行为

推荐理由：这揭示了 AI 模型输出中一个容易被忽视的隐私和一致性问题，做内容生成或对话系统的开发者应留意检查输出，避免历史信息意外泄露。

原文

12:06

Paul Couvert@itsPaulAi

HiDream-O1-Image 作为 Nano Banana 的开源替代品正式发布，采用 MIT 许可证，支持文本到图像、图像编辑、故事板生成等功能。该模型在文本渲染方面表现突出，提供 Hugging Face 模型和在线演示。这是开源社区在图像生成领域的重要进展，为开发者和创作者提供了更自由的选择。

AI模型开源/仓库图像生成文本渲染 HiDream-O1-Image Nano Banana

推荐理由：图像生成领域终于有了 MIT 许可证的开源强模型，做创意工具或需要文本渲染的开发者可以直接上手试试。

原文

12:05

Paul Couvert@itsPaulAi

HiDream-O1-Image 是一款开源图像生成模型，在多数使用场景下表现出色，足以替代闭源替代品。它在照片级真实感、长文本渲染、图像编辑（添加/替换/移除元素）以及提示词遵循度方面均有优异表现。其 8B 变体在所有开源基线中领先，性能与 Nano Banana 相当，而 200B 版本则达到当前最优水平。该模型为开发者提供了高性价比的闭源替代选择。

AI模型图像生成开源模型 HiDream-O1-Image 照片级真实感图像编辑

推荐理由：做图像生成和编辑的开发者终于有了一个能打的开源模型——HiDream-O1-Image 在多数场景下可替代闭源方案，8B 版本性能媲美 Nano Banana，建议直接上手试试。

原文