全部 AI 动态 · AI 热点

6月10日

01:12

@OpenAIDevs@OpenAIDevs

精选

OpenAI 在 Responses API 中新增网页搜索图片功能，除了原有的文本结果外，API 现在还能返回图片结果。这一更新让开发者能够构建展示产品、地点、视觉参考和灵感来源链接的应用。图片搜索功能可集成到搜索工具、购物应用或设计灵感平台中。

AI产品 OpenAI Responses API 多模态搜索增强

推荐理由：OpenAI 给 API 加了网页搜图功能

原文

01:08

Claude@claudeai

精选

Fable 5 在几乎所有测试基准上取得最先进成绩，尤其在软件工程、知识工作、科学研究和视觉领域表现卓越。其性能随着任务长度和复杂性增加而领先其他模型更多。此版本在多项评估中展现了全面优势。

AI模型 Fable 5 推理模型多模态软件工程

推荐理由：Fable 5 全面领先，复杂任务更强

原文

00:09

AK@_akhaliq

精选

SpatialWorld 是针对多模态 AI 智能体在真实世界任务中交互式空间推理能力的新基准。该基准涵盖物体操作、路径规划等空间认知场景。测试结果将揭示现有模型在空间理解与动态交互上的局限性。

AI模型 SpatialWorld 多模态空间推理智能体 benchmark

推荐理由：新基准测试AI空间推理

原文

6月9日

22:18

Hunyuan@TXhunyuan

72°

腾讯混元开源了UniRL，一个统一的多模态强化学习训练框架。它用一个循环（生成→评分→优势计算→更新→同步）覆盖文本、图像、视频等多种模态，模型和算法作为独立轴，实现模型×算法的组合覆盖。内置FlowDPPO和DRPO两种原创算法，分别针对扩散模型和LLM的强化学习优化。支持可插拔的rollout引擎、FSDP2分片和三种部署模式，旨在解决现有RL栈只能处理单一模态的问题。

AI产品腾讯混元 UniRL 多模态强化学习开源/仓库

推荐理由：做多模态RL训练的团队终于有了一个能统一处理文本、图像、视频的框架，不用再为每种模态搭不同的栈。腾讯混元把自家模型验证过的FlowDPPO和DRPO算法也开源了，做扩散模型或LLM RL优化的可以直接拿来用。

原文

15:16

AI Will@FinanceYF5

Google 在 Gemini Live 中新增了图像创建和编辑功能，用户可以在使用 Gemini 应用时实时生成或修改图像。该功能通过实时摄像头共享实现，用户可以向 Gemini 展示正在观看的内容，并即时要求其创建、调整或解释视觉内容。这一更新将 Gemini 从纯文本助手扩展为多模态交互工具，提升了实时视觉处理的实用性。目前该功能已上线，适用于支持 Gemini Live 的设备。

AI产品 Google Gemini Live 实时图像生成多模态 AI助手

推荐理由：实时图像生成与编辑让 Gemini 成为更强大的多模态助手，适合需要即时视觉创作或修改的用户，比如设计师、内容创作者和日常用户，建议打开 Gemini 试试这个新功能。

原文

11:01

arXiv cs.AI@Luciano Duarte, Olga Ovcharenko, Sebastian Schelter

精选

数据库社区缺乏结合表格、文本和图像的大规模真实数据集。研究者从大都会艺术博物馆、芝加哥艺术博物馆和荷兰国立博物馆收集了651045条博物馆记录，构建了多模态文化遗产数据集ArtiFact。该数据集包含130209条注入七类错误（如材料时代错乱、时间偏移）的记录，用于跨模态错误检测任务。实验表明，当前系统难以检测领域特定的细微错误，且在语义查询处理中，对文化邻近性、模糊对象类型和历史术语的查询表现不佳。ArtiFact为多模态数据管理研究提供了具有挑战性的基准。

论文多模态数据集/基准文化遗产错误检测语义查询

推荐理由：做多模态数据管理、文化遗产数字化或数据质量研究的团队，这个真实世界的大规模基准能帮你测试模型在细粒度错误检测和语义查询上的真实水平，值得跑一跑。

原文

10:38

arXiv cs.AI@Jonathan F. Carter, Lionel Tarassenko

精选

该研究提出 Hypnos，一个多模态睡眠基础模型，使用来自 2 万多次夜间多导睡眠监测的 8 种传感模态（如 EEG、ECG、呼吸信号）训练。与现有使用掩码重建或对比学习的方法不同，Hypnos 采用下一词预测作为自监督目标，通过残差向量量化将每种模态离散化为 token 流，并用自回归 RQ-Transformer 并行预测所有模态的下一个 token。在睡眠阶段分类任务中，Hypnos 仅用 1% 的标注数据就达到了强监督基线的性能，还能泛化到日间生理信号，在检测房颤上超越专门的 ECG 基础模型。结果表明，下一词预测是多模态生理信号表征学习的有效且可扩展的自监督目标。

论文基础模型睡眠生理学多模态下一词预测自监督学习

推荐理由：睡眠医学和生理信号分析的研究者终于有了一个无需大量标注数据就能学到通用表征的基础模型——Hypnos 用下一词预测解决了多模态生理数据的学习难题，做睡眠分期或房颤检测的团队可以直接用它生成嵌入，大幅降低标注成本。

原文

09:36

arXiv cs.AI@Xuanyi Liu, Deyi Ji, Junyu Lu, Jing Wang, Qianxiong Xu, Xuhang Chen, Tianrun Chen, Siwei Ma

精选

FaithRewriter 是一种新的提示增强框架，旨在解决文生图模型中用户意图与生成结果之间的差距。现有方法主要优化提示的流畅性和可读性，但缺乏视觉基础，容易过度推断缺失细节。FaithRewriter 首先利用多模态大模型根据原始提示生成中间图像作为视觉线索，然后将该图像与提示结合输入大规模语言模型，生成视觉上更合理的增强内容。最后，这些增强内容被蒸馏到小规模语言模型中实现高效部署。实验表明，FaithRewriter 生成的提示更忠实于用户意图，视觉上更合理，有效缩小了意图-生成差距。

论文文生图提示增强 FaithRewriter 多模态视觉锚点

推荐理由：做文生图应用或研究的人会关心——FaithRewriter 用视觉锚点解决了提示重写中的过度推断问题，生成的提示更贴近用户真实意图，值得在项目中尝试集成。

原文

6月8日

20:42

20:42IT之家（博客/媒体）

字节跳动旗下火山引擎宣布 Agent Plan 和 Coding Plan 限时优惠，即日起至 2026 年 8 月 27 日，新购或续费 40 元、200 元档位可享首两个月 2.5 折，最低 9.9 元/月。两个套餐均集成 MiniMax M3、DeepSeek V4、GLM-5.1 等前沿模型，Agent Plan 还内置字节自研多模态模型和 Harness 工具。这是业界首个“Agent 套餐包”，旨在降低企业使用 AI 智能体和编程助手的门槛。优惠力度大，适合开发者和小团队低成本体验。

AI产品智能体编程助手火山引擎限时优惠多模态

推荐理由：火山引擎把 AI 智能体和编程助手的价格打到了 9.9 元起，做开发或自动化的小团队可以直接薅羊毛，首两个月 2.5 折值得冲。

原文

16:42

Hunyuan@TXhunyuan

精选72°

腾讯混元与上海交大、南洋理工等机构合作推出 MMAE，这是首个针对语音和音频编辑的综合评估基准。与单纯生成音频不同，MMAE 要求 AI 理解现有音频并根据自然语言指令精确修改，保留无关部分。基准包含 2000 个真实场景样本、17741 个细粒度评估项，覆盖声音、音乐、语音及其混合的 7 种模态设置。当前模型在精确匹配率（EMR）上低于 5%，揭示了可靠音频编辑的巨大差距。该基准已开源，包含论文、代码和演示。

论文音频编辑评估基准腾讯混元多模态开源

推荐理由：音频编辑是 AI 落地的重要场景，MMAE 基准揭示了现有模型的巨大短板，做音频 AI 或语音交互的开发者值得关注这个评估工具。

原文

6月6日

15:24

Decoder@Jonathan Kemper

83°

阿里巴巴Qwen团队发布Qwen3.7-Plus，这是一个多模态智能体模型，集视觉感知、GUI操作和编码于一体。在演示中，基于该模型的智能体自主开发了一款词汇学习应用，在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先，但整体性能参差不齐。Qwen3.7-Plus是专有模型，未开源，定价远低于西方前沿模型。

AI模型多模态智能体 Qwen3.7-Plus 阿里巴巴自主开发

推荐理由：阿里将多模态AI推向自主智能体新高度，做GUI自动化或端到端应用开发的团队值得关注——它能自己写代码、操作界面，11小时产出上万行代码，效率惊人。

原文

6月5日

22:52

22:52Google Blog: AI（博客/媒体）

Google 在2026年5月发布了一系列AI更新，涵盖模型、产品和工具。其中包括Gemini模型的重大升级，提升了多模态理解和推理能力。同时，Google推出了新的AI编程助手，支持更高效的代码生成和调试。此外，还发布了面向企业的AI解决方案，旨在优化工作流程和决策效率。这些更新标志着Google在AI领域的持续投入，旨在为开发者和企业用户提供更强大的工具。

AI产品 Gemini AI编程助手企业AI 多模态 Google

推荐理由：Google 的5月更新为AI开发者和企业用户带来了更强大的模型和工具，尤其是Gemini的升级和编程助手，值得关注和尝试。

原文

11:43

AI Will@FinanceYF5

83°

Google 发布了 Gemma 4 12B 模型，这是一个支持视觉、音频、推理和智能体能力的多模态 AI 模型。该模型采用 Apache 2.0 开源协议，可以在本地笔记本电脑上运行，无需依赖重型编码器堆栈。这意味着开发者可以在离线环境中部署强大的 AI 功能，同时保持数据隐私。Gemma 4 12B 的发布进一步降低了多模态 AI 的应用门槛，适合个人开发者和中小企业使用。

AI模型多模态开源/仓库本地部署推理模型 Gemma

推荐理由：多模态模型终于能本地跑了，做边缘计算或隐私敏感应用的开发者可以直接上手试试，Apache 2.0 协议也省了授权烦恼。

原文

09:56

Pandaily@contact@pandaily.com (Pandaily)

精选

浙江大学与康奈尔大学、新加坡国立大学、西安电子科技大学合作开发视觉推理系统VisualThink-VLA。该系统让机器人直接通过视觉信息推理，无需语言内省，相比文本方法提速22.8倍，同时精度更高。在多个视觉-语言任务上，VisualThink-VLA达到SOTA。

AI模型 VisualThink-VLA Zhejiang University 视觉推理机器人多模态

推荐理由：机器人用眼睛思考，快22倍

原文

04:32

04:32Hugging Face: Blog（博客/媒体）

NVIDIA 推出 Nemotron 3.5 Content Safety，这是一款面向全球企业 AI 的可定制多模态安全模型。它支持文本和图像输入，能够检测有害内容（如仇恨言论、暴力、色情等），并允许企业根据自身政策进行微调。该模型基于 Llama 3.1 架构，提供 8B 和 70B 两种规模，在多个安全基准上表现优异。Nemotron 3.5 旨在帮助企业安全部署生成式 AI，满足不同地区的合规要求。

AI模型 NVIDIA Nemotron 3.5 内容安全多模态企业AI

推荐理由：企业部署 AI 最头疼的就是内容安全合规，NVIDIA 这个模型直接让企业按自己的政策微调安全过滤规则，做 AI 应用落地的团队值得关注。

原文

6月4日

23:12

Philipp Schmid@_philschmid

72°

Google 昨日发布 Gemma 4 12B 模型，并附有详细架构图解。该模型创新性地移除了视觉和音频编码器，仅用一个 12B 参数模型即可处理文本、图像和音频，无需独立的编码器模块。图解展示了编码器通常如何连接模态与大语言模型，以及 Gemma 4 如何通过单一模型实现多模态理解。这一设计简化了模型结构，降低了部署复杂度，对多模态 AI 研究者和开发者具有重要参考价值。

AI模型 Gemma 4 多模态模型架构 Google 图解

推荐理由：多模态模型架构的一次简化尝试，做模型部署或边缘推理的团队值得看看图解，理解无编码器方案如何降低资源开销。

原文

23:01

阶跃星辰 Stepfun@Stepfun_AI

阶跃星辰的 Step 3.7 Flash 模型已在 Fireworks AI 平台上线。该模型从设计之初就针对推理优化，采用硬件友好的架构和 MTP 辅助解码技术，推理速度可达每秒 400 tokens。Step 3.7 Flash 支持多模态输入，适合在真实工作流中驱动智能体。这一发布为开发者提供了高性能、低延迟的模型选择，尤其适合需要快速响应的应用场景。

AI模型推理模型多模态阶跃星辰 Fireworks AI 智能体

推荐理由：Step 3.7 Flash 以 400 tokens/s 的速度刷新了推理效率，做实时 AI 应用或智能体开发的团队可以直接在 Fireworks AI 上试用，省去自建推理基础设施的麻烦。

原文

20:43

orange.ai@oran_ge

ListenHub 今日正式上线 AI 视频生成功能，人类用户和 Agent 均可调用其服务。目前支持 HappyHorse、Seedance 2.0 等视频模型，用户输入想法或使用参考图、参考视频即可一键生成视频。人类用户可通过 ListenHub 官网使用，Agent 开发者可通过 CLI、skills 和 OpenAPI 集成。这标志着 AI 视频生成能力向多模态 Agent 生态开放，降低了视频创作门槛。

AI产品 AI视频生成 Agent 多模态 HappyHorse Seedance 2.0

推荐理由：AI 视频生成能力首次以 Agent 可调用的方式开放，做多模态应用或自动化工作流的开发者可以直接集成，省去自己对接多个模型的麻烦。

原文

16:44

AI Will@FinanceYF5

在 Build 大会上，某团队一次性发布了七款新模型，覆盖推理、代码生成、图像处理、语音转录和语音合成等核心能力。这些模型从零构建，采用干净的数据血统，追求极致效率，并作为一个模型家族无缝协作。此举展示了多模态 AI 模型家族化发展的新趋势，为开发者提供了更全面的工具链。

AI产品推理模型代码生成图像生成语音合成多模态

推荐理由：多模态模型家族化是当前 AI 发展的关键方向，做全栈 AI 应用的开发者可以直接关注这七款模型如何协作，提升开发效率。

原文

13:01

阶跃星辰 Stepfun@Stepfun_AI

精选

StepFun 发布 Step 3.7 Flash 模型，主打高智能与高速度的平衡。该模型采用 MTP 辅助解码技术，输出速度超过 400 tokens/s，具备更强的智能体性能和原生多模态能力。模型权重以 Apache 2.0 协议开源，适合生产级智能体工作负载。独立评测者 @ArtificialAnlys 对其进行了详细评估。

AI模型推理模型开源/仓库智能体多模态 StepFun

推荐理由：做智能体应用或需要高吞吐推理的团队，Step 3.7 Flash 的开源高速度方案值得直接拿来用，尤其适合生产环境部署。

原文

12:18

小互@imxiaohu

78°

Google 发布了 Gemma 4 12B 开源模型，采用无编码器架构，能直接处理文字、图像、音频和视频四种输入，无需传统视觉或音频编码器。该模型可在 16GB 显存的笔记本上运行，4-bit 量化后仅需 8GB 显存。支持 256K Token 上下文窗口、140 多种语言，并内置逐步推理和原生函数调用功能。这一架构创新降低了多模态 AI 的硬件门槛，让普通用户也能在本地运行全模态模型。

AI模型 Gemma 4 开源模型多模态无编码器架构本地推理

推荐理由：无编码器架构让多模态模型不再依赖专用编码器，16GB 笔记本就能跑全模态 AI，做本地 AI 应用或边缘计算的开发者可以直接试试。

原文

11:44

lmarena.ai@lmarena_ai

精选76°

MiniMax M3 模型在 LMSYS Arena 上线，在 Code Arena: Frontend 排名第 7，得分 1531，与 GLM-5.1 不相上下。该模型以每百万 token 输入 0.60 美元、输出 2.40 美元的价格，在其价位上推动了帕累托前沿。MiniMax M3 是首个结合编码与智能体前沿能力的开源权重模型，在 SWE-Bench Pro 上达 59.0%，支持 1M 上下文，并原生支持多模态。权重和技术报告将在约 10 天内发布。

AI模型 MiniMax M3 编码模型开源权重智能体多模态

推荐理由：MiniMax M3 以极低价格实现了顶级编码性能，做前端开发或智能体应用的团队值得关注，性价比突出。

原文

10:34

arXiv cs.AI@Jingyuan Chen, Sheng Jin, Haopeng Sun, Wentao Liu, Chen Qian

UniCAD 是一个面向计算机辅助设计（CAD）的多模态学习基准，涵盖点云到CAD重建、文本/图像到CAD生成以及CAD问答等任务。同时提出的 UniCAD-MLLM 是一个通用多模态大语言模型，能端到端处理文本、图像、草图和点云，在单一框架内完成异构任务。实验表明，UniCAD-MLLM 在 UniCAD 和 Fusion360 基准上均达到最先进水平，超越现有任务专用和多任务基线。该工作填补了CAD领域缺乏统一多模态基准的空白，将开源数据集、代码和预训练模型。

论文 CAD 多模态基准大语言模型 3D重建

推荐理由：CAD 研究者终于有了统一的多模态基准和通用模型，做3D设计、CAD生成或问答的团队可以直接用 UniCAD-MLLM 替代多个专用模型，建议关注开源资源。

原文

10:19

berryxia@berryxia

78°

OpenMOSS团队发布开源模型MOSS-Audio，首次将语音、音乐和环境音统一建模，实现音频语言统一。该模型能同时转录语音、识别环境音、理解音乐情绪，并生成文本描述或执行下游任务。它登顶Hugging Face Trending第一，代码和模型权重完全开源可商用。这颠覆了音频AI作为视觉/文本附属品的认知，让普通开发者能本地搭建音频Agent。开源社区在音频多模态领域的速度和开放度已领先闭源方案。

AI模型开源/仓库音频模型多模态 MOSS-Audio 智能体

推荐理由：做音频Agent或播客工具的开发者终于不用在闭源高价和割裂方案间纠结——MOSS-Audio一个模型搞定语音+声音+音乐，直接本地跑，建议立刻拉下来试试。

原文

10:00

Jeff Dean@JeffDean

精选

谷歌发布Gemma 4 12B模型，采用Apache 2.0许可证开放权重。该模型采用无编码器多模态架构，统一处理文本、图像等输入。12B参数规模可在笔记本电脑上直接运行，兼顾边缘效率与高级推理。

AI模型 Gemma 4 12B Google Apache 2.0 多模态开源模型

推荐理由：12B模型笔记本就能跑

原文

04:27

Decoder@Matthias Bastian

78°

Google DeepMind 发布了 Gemma 4 12B 开源模型，原生支持文本、图像和音频处理，仅需 16GB 内存即可在笔记本上运行。该模型在基准测试中几乎与两倍大小的 26B 模型持平，并采用 Apache 2.0 许可证，允许商业使用。这标志着多模态 AI 在消费级硬件上的重大突破，降低了开发者和企业的使用门槛。

AI模型多模态开源/仓库 Gemma 4 Google DeepMind 本地推理

推荐理由：多模态模型终于能跑在普通笔记本上了，做本地 AI 应用或边缘计算的开发者可以直接下载试试，性能还接近两倍大的模型。

原文

04:12

HeyGen@HeyGen_Official

HeyGen 与 Google DeepMind 将于6月11日在洛杉矶联合举办一场线下活动，主题聚焦智能体、多模态应用和创意工具。活动内容包括产品演示、交流讨论，并开放闪电演示名额，邀请有创新项目的团队或个人参与。这是两家 AI 领域知名公司首次公开合作举办社区活动，旨在促进前沿 AI 技术的实践与交流。

行业 HeyGen Google DeepMind 智能体多模态线下活动

推荐理由：做 AI 应用和智能体开发的团队别错过——HeyGen 和 DeepMind 首次线下联办，有机会展示你的项目、直接和两家团队交流，闪电演示名额开放中，建议有 demo 的立刻报名。

原文

01:54

Patrick Loeber@patloeber

78°

Google 发布 Gemma 4 12B 模型，采用全新统一架构，去除了独立的多模态编码器，原生支持图像、音频、视频和文本输入。该模型还具备高级智能体推理能力，并首次推出基于 LiteRT 的 macOS 桌面应用。这一架构简化了多模态处理流程，降低了部署门槛，适合本地运行和边缘设备。开发者可立即在 macOS 上体验其多模态与推理能力。

AI模型 Gemma 4 多模态统一架构智能体推理 macOS

推荐理由：Gemma 4 12B 的统一架构让多模态模型更轻量、更易部署，做本地 AI 应用或智能体开发的团队可以直接在 macOS 上试跑，值得关注。

原文

01:28

SiliconFlowAI@siliconflowai

83°

AI模型 MiniMax M3 开源模型编码能力多模态

推荐理由：M3 把编码、长上下文和多模态三合一开源了，做 AI 应用开发的团队可以直接在 SiliconFlow 上低成本试用，编码能力还超过了 GPT-5.5，值得上手体验。

原文

01:18

Geek@geekbb

Google 发布了 Gemma 4 12B 模型，这是一款统一的无编码器多模态模型，专为在笔记本电脑上高效运行而设计，采用 Apache 2.0 许可证。该模型在边缘效率与高级推理之间取得了平衡，适合本地部署。对于 Mac mini 用户来说，这可能是一个理想的本地 AI 模型选择，因为其轻量级设计和高性能推理能力。

AI模型 Gemma 4 12B 本地模型多模态 Mac mini 开源

推荐理由：Mac mini 用户终于有了一个高性能的本地多模态模型选择——Gemma 4 12B 在笔记本上就能跑，做本地 AI 开发或隐私敏感应用的团队可以直接试试。

原文

00:31

阶跃星辰 Stepfun@Stepfun_AI

Step 3.7 Flash 模型专为真实世界的智能体编程任务设计，不仅追求代码生成速度，更注重在复杂输出中保持逻辑、视觉和执行的一致性。该模型在演示中展示了其在多步骤、多模态任务中的连贯性，适合需要高可靠性的编程场景。开发者 @atomic_chat_hq 的创意测试进一步验证了其能力。

AI模型智能体编程助手推理模型 Step 3.7 Flash 多模态

推荐理由：做智能体编程的开发者终于有了一个兼顾速度和一致性的模型——Step 3.7 Flash 在复杂任务中保持逻辑连贯，值得在真实项目中试试。

原文

6月3日

10:17

arXiv cs.AI@Senjie Jin, Peixin Wang, Boyang Liu, Xiaoran Fan, Shuo Li, Zhiheng Xi, Jiazheng Zhang, Yuhao Zhou, Tao Gui, Qi Zhang, Xuanjing Huang

精选

研究发现，在视觉推理任务中，仅依赖令牌级熵进行强化学习（RLVR）会失效，因为视觉敏感但熵低的令牌被忽略。现有多模态RL方法要么缺乏系统视觉度量，要么忽视熵主要驱动语义探索。为此，研究者提出VEPO框架，通过视觉敏感性与令牌熵的乘法耦合，将梯度信用分配给同时具备视觉基础和高信息量的令牌。实验表明，VEPO在7B和3B规模上分别比熵基线提升2.28和3.15个百分点，消融实验验证了方法的有效性。

论文强化学习视觉推理令牌选择多模态 VEPO

推荐理由：视觉推理强化学习一直缺乏有效的信用分配机制，VEPO解决了这个痛点——做多模态RL的团队可以直接参考这个框架，在视觉-语义交叉场景中提升模型表现。

原文

04:40

Together AI@togethercompute

76°

MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理，将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色，适合需要处理大量信息和多种数据类型的应用场景。

AI模型 MiniMax-M3 稀疏注意力多模态长上下文推理优化

推荐理由：做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著，直接降低推理成本，值得一试。

原文

01:11

AI Will@FinanceYF5

Riley Brown 展示了 OpenAI Codex 内嵌的“Paper”白板功能，可以自动从 YouTube 或任意网站抓取缩略图并放置到白板上。用户能快速拖拽、混搭这些图像元素，利用内置的 GPT-4o 图像模型进行创意组合。这一功能让概念探索和视觉灵感收集变得极其高效，尤其适合需要快速原型设计的创作者。Codex 正从纯编程助手演变为多模态创意工具。

AI产品 Codex 白板/画布 GPT-4o 图像模型创意工具多模态

推荐理由：做视觉创意或快速原型的设计师、内容创作者，可以试试用 Codex 的白板功能直接抓取网页图像并混搭，比手动截图拖拽快得多。

原文

6月2日

17:15

marktechpost@Michal Sutter

83°

阿里Qwen团队在百炼平台推出Qwen3.7-Plus，这是一个多模态智能体模型。它不仅能理解图像和视频，还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代，可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。

AI模型 Qwen3.7-Plus 多模态智能体工具调用百炼平台

推荐理由：Qwen3.7-Plus把视觉、推理和工具调用整合到一个模型里，做多模态应用的开发者可以直接在百炼平台体验，省去拼接多个模型的麻烦。

原文

11:12

arXiv cs.AI@Stefano Samele, Eugenio Lomurno, Teodora Jovanovic, Sanjay Shivakumar Manohar, Alberto Crivellaro, Matteo Matteucci

工业异常检测领域近年引入多模态视觉语言模型，声称可通过文本指令实现零样本或少样本检测。但现有评估方法沿用单模态基准，无法验证模型是否真正依赖文本条件。本文提出TGAD结构化基准，通过三个递进场景测试：MVTec AD上的提示敏感性测试、组件级标注扩展、以及新构建的组装面板数据集APD。测试发现，三种代表性模型（生成式大视觉语言模型、无训练判别式、嵌入自适应判别式）均仅表面响应文本指令：移除物体名词后生成模型I-AUROC从97.4降至82.6；组件指令无法约束决策；在APD上图像级判别甚至低于随机水平（最低31.5）。结果表明当前多模态异常检测系统的文本引导能力被高估，需要此类基准才能实现工业部署所需的可靠语言控制。

论文异常检测多模态基准测试视觉语言模型工业检测

推荐理由：做工业视觉检测的团队会发现，当前号称支持文本引导的模型其实并不听指令——TGAD基准直接戳破了这个泡沫，建议点开看看你的模型是否真的被语言控制。

原文

11:12

arXiv cs.AI@Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu

网络上有大量多模态、异构、嘈杂的程序性知识，但直接用于智能体执行长周期任务效果不佳。研究者提出 guide-to-skill 学习问题，并发布首个基准 MMG2Skill-Bench。他们设计的闭环框架 MMG2Skill 能将人类指南编译为可编辑技能，在执行时条件化固定视觉语言模型，并通过轨迹级根因反馈持续修正技能。在 GUI 控制、开放游戏和策略卡牌等六个 VLM 骨干上，该方法比基线提升 12.8 到 25.3 个百分点。消融实验表明，直接提示原始指南反而会降低性能，而结构化技能构建和轨迹驱动修正是关键。

论文智能体技能蒸馏多模态长周期任务闭环学习

推荐理由：做智能体长任务规划的团队终于有了把网络教程变成可执行技能的方案——MMG2Skill 直接解决了指南与技能之间的鸿沟，做 GUI 自动化或游戏 AI 的开发者可以试试这个闭环框架。

原文

10:58

阿里通义 Qwen@Alibaba_Qwen

阿里 Qwen 团队在 Twitter 上展示了 Demo2，一个多模态交互混合智能体。该智能体能够处理文本、图像等多种输入，实现更自然的交互体验。Demo2 展示了多模态理解和生成能力，标志着 AI 智能体在多模态交互方面的新进展。这一技术有望应用于更复杂的任务场景，提升人机协作效率。

AI产品 Qwen 多模态智能体交互阿里

推荐理由：多模态交互是 AI 智能体的关键方向，Qwen 的 Demo2 展示了更自然的交互方式，做多模态应用或智能体开发的团队值得一看。

原文

10:17

AI Will@FinanceYF5

GPT Realtime 2.0 的发布被评价为“相当惊人”，因为它解锁了6个月前完全无法实现的17个创业方向。这些想法完全依赖该模型的实时交互能力，涵盖语音、视频、多模态等场景。该模型大幅降低了实时AI应用的开发门槛，可能引发新一轮创业浪潮。对于关注AI产品落地的创业者和开发者，这是值得深入研究的信号。

AI产品 GPT Realtime 2.0 创业实时交互多模态语音AI

推荐理由：GPT Realtime 2.0 把实时AI应用的可行性推到了新高度，做语音/视频交互产品的创业者可以从中找到17个具体方向，建议直接点开看想法列表。

原文

09:51

Julien Chaumond@julien_c

精选

阿里巴巴 Qwen 团队发布 Qwen3.7-Plus，一个多模态智能体模型，统一了视觉和语言能力。该模型支持多模态交互式混合智能体，可同时处理 GUI 和 CLI 操作，具备视觉感知、推理、定位和搜索增强问答能力。它还能作为全能编码助手和生产力工具，接受全模态输入。Qwen3.7-Plus 现已通过阿里云模型服务 API 提供，开发者可直接尝试。

AI模型 Qwen 多模态智能体开源/仓库阿里云

推荐理由：多模态智能体模型将视觉与语言统一，做自动化操作和智能体开发的团队可以直接用 API 试，省去自己拼接多模型的工作。

原文