全部 AI 动态 · AI 热点

6月12日

22:18

LMSYS Org (SGLang)@lmsysorg

73°

SGLang 宣布 Day-0 支持 MiniMax-M3，这是 MiniMax 推出的原生多模态 MoE 推理模型，总参数量约 428B（活跃参数约 23B），支持文本、图像和视频的融合处理。M3 采用 MiniMax 稀疏注意力机制，在 1M 上下文下相比 M2 实现 9 倍预填充和 15 倍解码加速，每 token 计算量降至 1/20。该模型在编码和协作任务上达到前沿智能体性能，并原生支持 NVIDIA Blackwell 和 AMD MI350X/MI355X 上的 MXFP8 格式。开发者可通过 SGLang 立即运行该模型。

AI模型 SGLang MiniMax-M3 多模态 MoE 推理模型

推荐理由：SGLang 第一时间支持 MiniMax-M3，做多模态推理和长上下文应用的团队可以直接上手体验 428B 模型的稀疏注意力加速，编码和智能体任务表现值得一试。

原文

15:45

Hailuo AI@Hailuo_AI

MiniMax 发布了 Hub，一个本地 AI Agent 创意工作站，支持从研究、脚本、图像、音乐到最终剪辑的全流程自动化。用户可以通过 Agent 处理繁琐任务，自己掌控创意方向。Hub 提供无限画布、并行项目和批量生成功能，集成顶级模型和自定义技能工具包，并支持本地资产和应用的即时导入导出。7月1日前登录可获3000奖励积分。

AI产品 MiniMax AI Agent 创意工作站多模态本地部署

推荐理由：MiniMax Hub 把 AI Agent 从编码转向创意生产，做内容创作、视频制作、多模态项目的团队可以直接用上全流程自动化，省去手动切换工具的麻烦，值得一试。

原文

13:35

Thinking Machines Lab@thinkymachines

Thinky Machines 推出了一款能像人类一样同时进行对话、聆听、观察、思考和协作的AI模型。该模型支持实时多模态交互，可同步处理语音、视觉和文本信息。团队分享了其设计理念、早期成果以及模型实际运行的演示视频。这标志着AI从单通道交互向类人实时多模态协作迈出重要一步。

AI模型多模态实时协作 AI模型交互设计 Thinky Machines

推荐理由：多模态实时协作是AI交互的下一个前沿，做对话系统或协作工具的团队值得关注这个新方向。

原文

12:33

Mira Murati (TML)@miramurati

Mira Murati 在X上发文强调，协作AI的核心在于实时交互，机器与人需跨所有模态协同工作。她指出解决这一挑战需要社区共同努力，并邀请大家加入。这反映了AI发展从单机智能向人机协作生态的转变，强调多模态实时交互的重要性。

行业协作AI 实时交互多模态人机协作 Mira Murati

推荐理由：关注人机协作未来的开发者，这条信息点明了AI的下一个关键方向——实时多模态交互，值得思考如何参与其中。

原文

12:31

karminski-牙医 (AI工具)@karminski3

该模型新增多模态输入功能，支持文本、图片和视频等多种数据格式。这一更新显著扩展了模型的应用场景，使其能够处理更丰富的输入类型。对于需要综合处理多种媒体信息的用户来说，这是一个重要的功能升级。

AI模型多模态模型更新文本图片视频

推荐理由：多模态输入让模型能处理图片和视频，做内容分析或创意工作的团队可以直接用起来，效率提升明显。

原文

12:02

Black Forest Labs (FLUX)@bfl_ml

BFL 在 X 上分享了对视觉智能的愿景，指出通过联合训练视频、图像和音频，模型能获得对真实世界的物理级理解。这种通用视觉处理能力不仅会提升图像和视频生成质量，还能通过动作预测接入机器人，将人类学习方式映射到机器上。内容创作、视频和物理 AI 被视为解决基础视觉智能后的自然延伸。

AI模型视觉智能多模态 BFL 物理AI 内容创作

推荐理由：BFL 的视觉智能路线图揭示了多模态联合训练如何通向物理级世界理解，做内容生成、视频或机器人开发的团队值得关注这一方向。

原文

01:05

Logan Kilpatrick@OfficialLoganK

Google的Gemini Omni Flash模型在图像生成视频、文本生成视频以及视频编辑三个任务上均达到最佳性能（SOTA）。该模型即将通过API向开发者开放。具体基准数据尚未公布。

AI模型 Gemini Omni Flash Google 视频生成多模态

推荐理由：Google新视频模型SOTA

原文

00:53

Philipp Schmid@_philschmid

Google 重写了 Gemini Interactions API 的入门指南，从首次 API 调用到运行自主智能体共 11 步。指南涵盖文本、多模态理解、图像生成（如 Nano Banana）、流式响应、有状态/无状态多轮对话。内置工具包括搜索、代码执行、地图、电脑使用。还涉及函数调用、托管智能体和后台执行。适合想快速上手 Gemini 开发能力的开发者。

AI产品 Gemini API 智能体多模态入门指南

推荐理由：这份指南把 Gemini 从基础调用到自主智能体的路径讲清楚了，做 AI 应用开发的团队可以直接照着 11 步上手，省去自己摸索的时间。

原文

00:24

SiliconFlowAI@siliconflowai

精选

Google DeepMind 的 Gemma 4 12B 模型已在 SiliconFlow 平台上线，支持 262K 上下文、内置思考、原生工具调用及 140+ 语言。该模型采用无编码器架构，视觉和音频输入直接进入 LLM 主干，降低处理延迟。12B 参数规模但拥有 26B 的“大脑”性能，接近 Google 26B 模型的表现，在多步推理和智能体工作流中表现出色。定价为输入/输出每百万 tokens 0.1/0.3 美元，性价比突出。

AI模型 Gemma 4 智能体多模态长上下文 SiliconFlow

推荐理由：做智能体、长上下文或多模态应用的开发者终于有了一个模型搞定三件事的选择——Gemma 4 12B 在 SiliconFlow 上价格亲民，建议直接上手试试。

原文

6月11日

09:42

AI Will@FinanceYF5

Claude Fable 5 发布仅一天，用户就展示了其惊人的多领域应用能力，包括模拟单行道红绿灯系统、生成麦肯锡级别的商业报告、从零搭建类似 Replit 的编程环境、设计类人机器人、构建完整品牌以及克隆宝可梦游戏。这些案例表明该模型在复杂任务模拟和创意生成方面有显著突破，远超传统 AI 助手的边界。对于开发者、产品经理和创意工作者来说，Fable 5 可能成为新一代全能型 AI 工具。

AI产品 Claude Fable 5 多模态创意生成模拟

推荐理由：Claude Fable 5 一天内被玩出花，从红绿灯模拟到品牌搭建，做产品原型和创意验证的团队值得看看它到底多能打。

原文

04:47

HeyGen@HeyGen_Official

HeyGen 与 Google DeepMind 将于明天在洛杉矶联合举办一场面向构建者、创始人、研究人员和开发者的活动。活动聚焦智能体、创意工具和多模态应用领域。主办方在 X 平台发布消息，提醒有意者尽快通过 Luma 平台 RSVP。这是两家 AI 领域重要公司的一次线下交流机会，适合关注前沿 AI 应用和生态合作的从业者。

行业智能体多模态创意工具 HeyGen Google DeepMind

推荐理由：HeyGen 和 Google DeepMind 的联合活动聚焦智能体与多模态应用，做 AI 产品和工具的团队值得关注，明天就开始了，现在报名还来得及。

原文

6月10日

17:54

AI Will@FinanceYF5

Anthropic 的 Claude Fable 5 模型在 high 模式下，仅凭「渲染一个黑洞」的提示词，生成了令人惊叹的黑洞渲染视频。该视频展示了模型在视觉生成领域的强大能力，引发了社区广泛讨论。这一成果凸显了 Anthropic 在 AI 多模态生成方面的领先地位，为创意工作者提供了新的工具。

AI模型 Claude Fable 5 Anthropic 视觉生成视频渲染多模态

推荐理由：做视觉创意或 AI 生成内容的团队，Claude Fable 5 的渲染能力值得一试，一个提示词就能出高质量视频。

原文

14:13

xAI@xai

xAI 宣布与即时配送平台 Gopuff 合作，利用其 Grok 模型构建一个多模态个性化购物助手。该助手整合了聊天、语音和图像识别能力，旨在提升用户的购物体验。这一合作展示了 Grok 模型在零售场景中的实际应用潜力。xAI 通过将 AI 技术嵌入日常消费场景，进一步拓展了其模型的应用边界。

AI产品 Grok xAI Gopuff 购物助手多模态

推荐理由：xAI 首次将 Grok 模型落地到零售购物场景，做电商或即时配送的团队可以看看多模态助手如何提升转化率，值得关注。

原文

11:07

AI Will@FinanceYF5

精选

Claude 的 Fable 5 版本仅通过屏幕截图，从零开始打通了《宝可梦火红》。此前的 Claude 需要地图数据、导航辅助和游戏状态信息才能勉强运行。Fable 5 不依赖任何外部信息，仅凭视觉理解游戏画面自主决策。该版本展示了纯视觉推理在复杂游戏任务上的进展。

AI模型 Claude Fable 5 宝可梦火红多模态游戏AI

推荐理由：Claude新版本能纯视觉打游戏

原文

03:42

lmarena.ai@lmarena_ai

Claude Fable 5 模型现已加入 LMSYS Chatbot Arena 的多个评测赛道，包括文本、视觉、文档和代码前端竞技场。用户可以通过对战模式投票，为排行榜贡献数据。该模型在 agent 场景下的表现也值得关注。评测入口已开放，开发者可前往 arena.ai/agent 体验。

AI模型 Claude Fable 5 LMSYS 竞技场模型评测多模态 Agent

推荐理由：Claude Fable 5 进入主流评测平台，做模型选型或 Agent 开发的团队可以直接在真实场景中对比它的表现，建议去 arena 投几票。

原文

01:12

@OpenAIDevs@OpenAIDevs

精选

OpenAI 在 Responses API 中新增网页搜索图片功能，除了原有的文本结果外，API 现在还能返回图片结果。这一更新让开发者能够构建展示产品、地点、视觉参考和灵感来源链接的应用。图片搜索功能可集成到搜索工具、购物应用或设计灵感平台中。

AI产品 OpenAI Responses API 多模态搜索增强

推荐理由：OpenAI 给 API 加了网页搜图功能

原文

01:08

Claude@claudeai

精选

Fable 5 在几乎所有测试基准上取得最先进成绩，尤其在软件工程、知识工作、科学研究和视觉领域表现卓越。其性能随着任务长度和复杂性增加而领先其他模型更多。此版本在多项评估中展现了全面优势。

AI模型 Fable 5 推理模型多模态软件工程

推荐理由：Fable 5 全面领先，复杂任务更强

原文

00:09

AK@_akhaliq

精选

SpatialWorld 是针对多模态 AI 智能体在真实世界任务中交互式空间推理能力的新基准。该基准涵盖物体操作、路径规划等空间认知场景。测试结果将揭示现有模型在空间理解与动态交互上的局限性。

AI模型 SpatialWorld 多模态空间推理智能体 benchmark

推荐理由：新基准测试AI空间推理

原文

6月9日

22:18

Hunyuan@TXhunyuan

72°

腾讯混元开源了UniRL，一个统一的多模态强化学习训练框架。它用一个循环（生成→评分→优势计算→更新→同步）覆盖文本、图像、视频等多种模态，模型和算法作为独立轴，实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法，分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式，旨在解决现有RL栈只能处理单一模态的问题。

AI产品腾讯混元 UniRL 多模态强化学习开源/仓库

推荐理由：做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架，不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了，做扩散模型或LLM RL优化的可以直接拿来用。

原文

15:16

AI Will@FinanceYF5

Google 在 Gemini Live 中新增了图像创建和编辑功能，用户可以在使用 Gemini 应用时实时生成或修改图像。该功能通过实时摄像头共享实现，用户可以向 Gemini 展示正在观看的内容，并即时要求其创建、调整或解释视觉内容。这一更新将 Gemini 从纯文本助手扩展为多模态交互工具，提升了实时视觉处理的实用性。目前该功能已上线，适用于支持 Gemini Live 的设备。

AI产品 Google Gemini Live 实时图像生成多模态 AI助手

推荐理由：实时图像生成与编辑让 Gemini 成为更强大的多模态助手，适合需要即时视觉创作或修改的用户，比如设计师、内容创作者和日常用户，建议打开 Gemini 试试这个新功能。

原文

6月8日

16:42

Hunyuan@TXhunyuan

精选72°

腾讯混元与上海交大、南洋理工等机构合作推出 MMAE，这是首个针对语音和音频编辑的综合评估基准。与单纯生成音频不同，MMAE 要求 AI 理解现有音频并根据自然语言指令精确修改，保留无关部分。基准包含 2000 个真实场景样本、17741 个细粒度评估项，覆盖声音、音乐、语音及其混合的 7 种模态设置。当前模型在精确匹配率（EMR）上低于 5%，揭示了可靠音频编辑的巨大差距。该基准已开源，包含论文、代码和演示。

论文音频编辑评估基准腾讯混元多模态开源

推荐理由：音频编辑是 AI 落地的重要场景，MMAE 基准揭示了现有模型的巨大短板，做音频 AI 或语音交互的开发者值得关注这个评估工具。

原文

6月5日

11:43

AI Will@FinanceYF5

83°

Google 发布了 Gemma 4 12B 模型，这是一个支持视觉、音频、推理和智能体能力的多模态 AI 模型。该模型采用 Apache 2.0 开源协议，可以在本地笔记本电脑上运行，无需依赖重型编码器堆栈。这意味着开发者可以在离线环境中部署强大的 AI 功能，同时保持数据隐私。Gemma 4 12B 的发布进一步降低了多模态 AI 的应用门槛，适合个人开发者和中小企业使用。

AI模型多模态开源/仓库本地部署推理模型 Gemma

推荐理由：多模态模型终于能本地跑了，做边缘计算或隐私敏感应用的开发者可以直接上手试试，Apache 2.0 协议也省了授权烦恼。

原文

6月4日

23:12

Philipp Schmid@_philschmid

72°

Google 昨日发布 Gemma 4 12B 模型，并附有详细架构图解。该模型创新性地移除了视觉和音频编码器，仅用一个 12B 参数模型即可处理文本、图像和音频，无需独立的编码器模块。图解展示了编码器通常如何连接模态与大语言模型，以及 Gemma 4 如何通过单一模型实现多模态理解。这一设计简化了模型结构，降低了部署复杂度，对多模态 AI 研究者和开发者具有重要参考价值。

AI模型 Gemma 4 多模态模型架构 Google 图解

推荐理由：多模态模型架构的一次简化尝试，做模型部署或边缘推理的团队值得看看图解，理解无编码器方案如何降低资源开销。

原文

23:01

阶跃星辰 Stepfun@Stepfun_AI

阶跃星辰的 Step 3.7 Flash 模型已在 Fireworks AI 平台上线。该模型从设计之初就针对推理优化，采用硬件友好的架构和 MTP 辅助解码技术，推理速度可达每秒 400 tokens。Step 3.7 Flash 支持多模态输入，适合在真实工作流中驱动智能体。这一发布为开发者提供了高性能、低延迟的模型选择，尤其适合需要快速响应的应用场景。

AI模型推理模型多模态阶跃星辰 Fireworks AI 智能体

推荐理由：Step 3.7 Flash 以 400 tokens/s 的速度刷新了推理效率，做实时 AI 应用或智能体开发的团队可以直接在 Fireworks AI 上试用，省去自建推理基础设施的麻烦。

原文

20:43

orange.ai@oran_ge

ListenHub 今日正式上线 AI 视频生成功能，人类用户和 Agent 均可调用其服务。目前支持 HappyHorse、Seedance 2.0 等视频模型，用户输入想法或使用参考图、参考视频即可一键生成视频。人类用户可通过 ListenHub 官网使用，Agent 开发者可通过 CLI、skills 和 OpenAPI 集成。这标志着 AI 视频生成能力向多模态 Agent 生态开放，降低了视频创作门槛。

AI产品 AI视频生成 Agent 多模态 HappyHorse Seedance 2.0

推荐理由：AI 视频生成能力首次以 Agent 可调用的方式开放，做多模态应用或自动化工作流的开发者可以直接集成，省去自己对接多个模型的麻烦。

原文

16:44

AI Will@FinanceYF5

在 Build 大会上，某团队一次性发布了七款新模型，覆盖推理、代码生成、图像处理、语音转录和语音合成等核心能力。这些模型从零构建，采用干净的数据血统，追求极致效率，并作为一个模型家族无缝协作。此举展示了多模态 AI 模型家族化发展的新趋势，为开发者提供了更全面的工具链。

AI产品推理模型代码生成图像生成语音合成多模态

推荐理由：多模态模型家族化是当前 AI 发展的关键方向，做全栈 AI 应用的开发者可以直接关注这七款模型如何协作，提升开发效率。

原文

13:01

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 发布 Step 3.7 Flash 模型，主打高智能与高速度的平衡。该模型采用 MTP 辅助解码技术，输出速度超过 400 tokens/s，具备更强的智能体性能和原生多模态能力。模型权重以 Apache 2.0 协议开源，适合生产级智能体工作负载。独立评测者 @ArtificialAnlys 对其进行了详细评估。

AI模型推理模型开源/仓库智能体多模态 StepFun

推荐理由：做智能体应用或需要高吞吐推理的团队，Step 3.7 Flash 的开源高速度方案值得直接拿来用，尤其适合生产环境部署。

原文

12:18

小互@imxiaohu

78°

Google 发布了 Gemma 4 12B 开源模型，采用无编码器架构，能直接处理文字、图像、音频和视频四种输入，无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行，4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言，并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛，让普通用户也能在本地运行全模态模型。

AI模型 Gemma 4 开源模型多模态无编码器架构本地推理

推荐理由：无编码器架构让多模态模型不再依赖专用编码器，16GB 笔记本就能跑全模态 AI，做本地 AI 应用或边缘计算的开发者可以直接试试。

原文

11:44

lmarena.ai@lmarena_ai

精选76°

MiniMax M3 模型在 LMSYS Arena 上线，在 Code Arena: Frontend 排名第 7，得分 1531，与 GLM-5.1 不相上下。该模型以每百万 token 输入 0.60 美元、输出 2.40 美元的价格，在其价位上推动了帕累托前沿。MiniMax M3 是首个结合编码与智能体前沿能力的开源权重模型，在 SWE-Bench Pro 上达 59.0%，支持 1M 上下文，并原生支持多模态。权重和技术报告将在约 10 天内发布。

AI模型 MiniMax M3 编码模型开源权重智能体多模态

推荐理由：MiniMax M3 以极低价格实现了顶级编码性能，做前端开发或智能体应用的团队值得关注，性价比突出。

原文

10:19

berryxia@berryxia

78°

OpenMOSS团队发布开源模型MOSS-Audio，首次将语音、音乐和环境音统一建模，实现音频语言统一。该模型能同时转录语音、识别环境音、理解音乐情绪，并生成文本描述或执行下游任务。它登顶Hugging Face Trending第一，代码和模型权重完全开源可商用。这颠覆了音频AI作为视觉/文本附属品的认知，让普通开发者能本地搭建音频Agent。开源社区在音频多模态领域的速度和开放度已领先闭源方案。

AI模型开源/仓库音频模型多模态 MOSS-Audio 智能体

推荐理由：做音频Agent或播客工具的开发者终于不用在闭源高价和割裂方案间纠结——MOSS-Audio一个模型搞定语音+声音+音乐，直接本地跑，建议立刻拉下来试试。

原文

10:00

Jeff Dean@JeffDean

精选

谷歌发布Gemma 4 12B模型，采用Apache 2.0许可证开放权重。该模型采用无编码器多模态架构，统一处理文本、图像等输入。12B参数规模可在笔记本电脑上直接运行，兼顾边缘效率与高级推理。

AI模型 Gemma 4 12B Google Apache 2.0 多模态开源模型

推荐理由：12B模型笔记本就能跑

原文

04:12

HeyGen@HeyGen_Official

HeyGen 与 Google DeepMind 将于6月11日在洛杉矶联合举办一场线下活动，主题聚焦智能体、多模态应用和创意工具。活动内容包括产品演示、交流讨论，并开放闪电演示名额，邀请有创新项目的团队或个人参与。这是两家 AI 领域知名公司首次公开合作举办社区活动，旨在促进前沿 AI 技术的实践与交流。

行业 HeyGen Google DeepMind 智能体多模态线下活动

推荐理由：做 AI 应用和智能体开发的团队别错过——HeyGen 和 DeepMind 首次线下联办，有机会展示你的项目、直接和两家团队交流，闪电演示名额开放中，建议有 demo 的立刻报名。

原文

01:54

Patrick Loeber@patloeber

78°

Google 发布 Gemma 4 12B 模型，采用全新统一架构，去除了独立的多模态编码器，原生支持图像、音频、视频和文本输入。该模型还具备高级智能体推理能力，并首次推出基于 LiteRT 的 macOS 桌面应用。这一架构简化了多模态处理流程，降低了部署门槛，适合本地运行和边缘设备。开发者可立即在 macOS 上体验其多模态与推理能力。

AI模型 Gemma 4 多模态统一架构智能体推理 macOS

推荐理由：Gemma 4 12B 的统一架构让多模态模型更轻量、更易部署，做本地 AI 应用或智能体开发的团队可以直接在 macOS 上试跑，值得关注。

原文

01:28

SiliconFlowAI@siliconflowai

83°

AI模型 MiniMax M3 开源模型编码能力多模态

推荐理由：M3 把编码、长上下文和多模态三合一开源了，做 AI 应用开发的团队可以直接在 SiliconFlow 上低成本试用，编码能力还超过了 GPT-5.5，值得上手体验。

原文

01:18

Geek@geekbb

Google 发布了 Gemma 4 12B 模型，这是一款统一的无编码器多模态模型，专为在笔记本电脑上高效运行而设计，采用 Apache 2.0 许可证。该模型在边缘效率与高级推理之间取得了平衡，适合本地部署。对于 Mac mini 用户来说，这可能是一个理想的本地 AI 模型选择，因为其轻量级设计和高性能推理能力。

AI模型 Gemma 4 12B 本地模型多模态 Mac mini 开源

推荐理由：Mac mini 用户终于有了一个高性能的本地多模态模型选择——Gemma 4 12B 在笔记本上就能跑，做本地 AI 开发或隐私敏感应用的团队可以直接试试。

原文

00:31

阶跃星辰 Stepfun@Stepfun_AI

Step 3.7 Flash 模型专为真实世界的智能体编程任务设计，不仅追求代码生成速度，更注重在复杂输出中保持逻辑、视觉和执行的一致性。该模型在演示中展示了其在多步骤、多模态任务中的连贯性，适合需要高可靠性的编程场景。开发者 @atomic_chat_hq 的创意测试进一步验证了其能力。

AI模型智能体编程助手推理模型 Step 3.7 Flash 多模态

推荐理由：做智能体编程的开发者终于有了一个兼顾速度和一致性的模型——Step 3.7 Flash 在复杂任务中保持逻辑连贯，值得在真实项目中试试。

原文

6月3日

04:40

Together AI@togethercompute

76°

MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理，将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色，适合需要处理大量信息和多种数据类型的应用场景。

AI模型 MiniMax-M3 稀疏注意力多模态长上下文推理优化

推荐理由：做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著，直接降低推理成本，值得一试。

原文

01:11

AI Will@FinanceYF5

Riley Brown 展示了 OpenAI Codex 内嵌的“Paper”白板功能，可以自动从 YouTube 或任意网站抓取缩略图并放置到白板上。用户能快速拖拽、混搭这些图像元素，利用内置的 GPT-4o 图像模型进行创意组合。这一功能让概念探索和视觉灵感收集变得极其高效，尤其适合需要快速原型设计的创作者。Codex 正从纯编程助手演变为多模态创意工具。

AI产品 Codex 白板/画布 GPT-4o 图像模型创意工具多模态

推荐理由：做视觉创意或快速原型的设计师、内容创作者，可以试试用 Codex 的白板功能直接抓取网页图像并混搭，比手动截图拖拽快得多。

原文

6月2日

10:58

阿里通义 Qwen@Alibaba_Qwen

阿里 Qwen 团队在 Twitter 上展示了 Demo2，一个多模态交互混合智能体。该智能体能够处理文本、图像等多种输入，实现更自然的交互体验。Demo2 展示了多模态理解和生成能力，标志着 AI 智能体在多模态交互方面的新进展。这一技术有望应用于更复杂的任务场景，提升人机协作效率。

AI产品 Qwen 多模态智能体交互阿里

推荐理由：多模态交互是 AI 智能体的关键方向，Qwen 的 Demo2 展示了更自然的交互方式，做多模态应用或智能体开发的团队值得一看。

原文

10:17

AI Will@FinanceYF5

GPT Realtime 2.0 的发布被评价为“相当惊人”，因为它解锁了6个月前完全无法实现的17个创业方向。这些想法完全依赖该模型的实时交互能力，涵盖语音、视频、多模态等场景。该模型大幅降低了实时AI应用的开发门槛，可能引发新一轮创业浪潮。对于关注AI产品落地的创业者和开发者，这是值得深入研究的信号。

AI产品 GPT Realtime 2.0 创业实时交互多模态语音AI

推荐理由：GPT Realtime 2.0 把实时AI应用的可行性推到了新高度，做语音/视频交互产品的创业者可以从中找到17个具体方向，建议直接点开看想法列表。

原文