全部 AI 动态 · AI 热点

6月2日

09:32

阿里通义 Qwen@Alibaba_Qwen

83°

阿里 Qwen 团队正式推出 Qwen3.7-Plus，这是一款将视觉与语言能力统一的多模态智能体模型。它支持多模态交互混合智能体，可同时处理 GUI 和 CLI 操作；具备全模态输入的编程助手与生产力工具能力；视觉方面涵盖感知、推理、定位和搜索增强问答。该模型在多种智能体框架上表现出跨框架泛化能力，现已通过阿里云 Model Studio API 开放使用。

AI模型多模态智能体 Qwen3.7-Plus 阿里云 API

推荐理由：做多模态应用或智能体开发的团队可以直接用 API 试——一个模型搞定看、想、写、做，省去多模型拼接的麻烦。

原文

08:23

Guillermo Rauch@rauchg

76°

MiniMax M3 在 Next.js 智能体评测中成为领先的开源模型，性能仅次于 Opus 和 GPT-5，但成本低 10 倍。这是 MiniMax 首个支持多模态输入的长上下文模型。Vercel 宣布 M3 已上线 AI Gateway，并提供一周 50% 折扣。开发者可以以极低成本获得接近顶级模型的智能体能力。

AI模型 MiniMax M3 开源模型智能体 Next.js 多模态

推荐理由：做 Next.js 智能体开发的团队终于有了高性价比的开源选择——M3 性能接近 Opus 但成本仅 1/10，Vercel 用户现在就能用上，建议立刻试试。

原文

08:14

岚叔@lufzzliz

AI模型 Qwen3.7-Plus 多模态 Agent 工具调用性价比

推荐理由：Qwen3.7-Plus 把多模态 Agent 的实用门槛又拉低了一截，做自动化工作流或 GUI 操作的开发者可以直接关注，性价比和功能覆盖都很能打。

原文

06:41

06:41IT之家（博客/媒体）

精选

阿里千问大模型推出 Qwen3.7-Plus，定位为多模态交互混合智能体，在保留文本、编码、工具使用等能力基础上，强化了视觉理解、视觉推理和跨模态任务处理。该模型支持图像、视频、屏幕、网页和文本输入，可在 GUI、CLI 和工具环境中完成复杂软件与办公流程。在 Vision Arena 评测中，阿里凭借该模型进入全球前 5、中国第 1，多模态测试在 BabyVision、MathVision 等基准上提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

AI模型 Qwen3.7-Plus 多模态智能体阿里千问视觉理解

推荐理由：Qwen3.7-Plus 把视觉与语言统一到智能体基座，做多模态应用或办公自动化的团队可以直接在百炼上试，能省掉不少模型拼接的麻烦。

原文

04:47

marktechpost@Asif Razzaq

78°

MiniMax 正式发布新一代大模型 MiniMax M3，采用自研的 MiniMax Sparse Attention（MSA）架构，支持高达 100 万 token 的超长上下文窗口。该模型原生支持图像、视频理解以及计算机使用（computer use）能力，并具备智能体编程（agentic coding）功能。MSA 架构通过稀疏注意力机制显著降低长序列计算成本，使得处理百万级 token 成为可能。这标志着国产大模型在长上下文和多模态融合方面迈出了重要一步，为复杂文档分析、视频理解和自动化编程等场景提供了新的基础设施。

AI模型 MiniMax M3 MSA架构长上下文多模态智能体编程

推荐理由：MiniMax M3 的 1M 上下文和原生多模态能力直接解决了长文档分析和视频理解的痛点，做 RAG 应用或自动化编程的团队值得关注其 agentic coding 特性。

原文

01:32

01:32Google Blog: AI（博客/媒体）

Google 内部团队利用 Gemini 模型辅助制作了 2026 年 I/O 大会的多个环节，包括生成演讲脚本、设计演示素材、优化会议流程等。这展示了 AI 在大型活动策划与执行中的实际应用，从创意生成到后期制作全程参与。Gemini 的多模态能力被用于处理文本、图像和视频内容，显著提升了团队的工作效率。此举也标志着 Google 对自家 AI 产品的深度信任和内部实践。

AI产品 Gemini Google I/O AI 辅助创作多模态活动策划

推荐理由：活动策划和内容制作团队可以看看 Google 如何用 Gemini 把大会筹备效率拉满——从写稿到做素材一条龙，值得借鉴。

原文

6月1日

21:50

Decoder@Jonathan Kemper

78°

中国AI公司MiniMax发布了新模型M3，号称是首个结合顶级编码性能、百万token上下文窗口和原生多模态能力的开源权重模型。该模型在多项基准测试中表现优异，尤其在长上下文任务和代码生成方面，直接挑战GPT-4、Claude等闭源模型。M3的开源特性使得开发者可以自由部署和微调，降低了使用门槛。这一发布标志着开源模型在关键能力上正快速追赶闭源方案。

AI模型 MiniMax M3 开源模型百万token上下文多模态

推荐理由：百万token上下文+开源权重，做长文档处理或代码分析的团队可以直接部署，不用再被闭源API的token计费卡脖子。

原文

19:05

AI Will@FinanceYF5

72°

Greg Isenberg 分享了基于 GPT Realtime 2.0 的 17 个创业想法，这些想法只有在实时语音模型支持下才能实现。涵盖实时合同谈判、语音交易终端、多语言同传、医疗问诊、现场服务调度、编程助手、拍卖代理、律师证词准备、播客研究、销售教练、房产评估、智能婴儿监护等场景。核心特点是模型能在对话中并行查询多个数据源、理解专业术语、支持 128K 上下文，并可根据任务复杂度调整推理深度。这些想法展示了实时语音 AI 如何将传统需要多步骤、多工具的任务压缩到一次对话中完成。

AI产品 GPT Realtime 2.0 实时语音创业点子智能体多模态

推荐理由：实时语音 AI 终于有了具体可落地的商业场景，做创业或产品经理的可以直接从中找灵感，17 个方向覆盖了从法律到医疗的多个垂直领域，值得收藏研究。

原文

18:53

岚叔@lufzzliz

精选76°

MiniMax 发布新一代旗舰模型 M3，面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文，核心技术创新是 MiniMax Sparse Attention (MSA)，通过稀疏注意力将 KV 分块并精确选取相关块，大幅降低长上下文计算成本。在 1M 上下文下，每 token 计算量仅为上一代的 1/20，prefill 提速 9 倍以上，decode 提速 15 倍以上。M3 支持文本、图片、视频输入，将长上下文、工具调用、多模态理解和持续执行能力整合，明确押注 agentic coding 场景。

AI模型 MiniMax-M3 稀疏注意力长上下文 Agentic Coding 多模态

推荐理由：M3 的稀疏注意力解决了长上下文推理的成本痛点，做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%，意味着更长的任务链也能跑得动。

原文

15:16

pandaily@contact@pandaily.com (Pandaily)

精选83°

MiniMax 发布了其旗舰模型 M3，声称这是国内首个将前沿编码、智能体能力、100 万 token 上下文窗口和原生多模态处理整合在单一架构中的 AI 模型。M3 模型在多项基准测试中表现出色，尤其在长文本理解和复杂任务执行方面。该模型支持同时处理文本、图像、音频等多种输入，并具备强大的代码生成和工具调用能力。MiniMax 表示 M3 旨在为开发者和企业提供更高效、更全面的 AI 解决方案。

AI模型 MiniMax M3 多模态长上下文智能体

推荐理由：MiniMax M3 将 1M 上下文、多模态和智能体能力打包进一个模型，做长文本处理或多模态应用的开发者可以直接用它替代多个模型组合，省心又高效。

原文

14:50

歸藏(guizang.ai)@op7418

精选76°

MiniMax 正式发布大版本模型升级 MiniMax M3，核心亮点包括标配 1M 超长上下文、采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20，大幅提升可落地性。API 价格同步更新，小于 512k 的 API 限时五折（7 天）。模型权重和技术报告将在约 10 天后开源。

AI模型 MiniMax M3 长上下文稀疏注意力多模态 API

推荐理由：MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里，而且计算效率大幅提升，做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试，价格也很友好。

原文

11:17

11:17IT之家（博客/媒体）

上海市人民政府办公厅印发《上海市服务业发展“十五五”规划》，明确提出支持多模态智能体开发与应用，推动智能客服、智能运营等工具规模化。规划还强调有序推进智能驾驶在共享出行、物流运输等多场景应用，并聚焦AI软件技术、具身智能、智算云服务等领域。该规划旨在到2030年服务业增加值达6万亿元，打造全球服务资源配置枢纽。对AI从业者和企业而言，这意味着上海将提供政策支持和场景落地机会。

行业智能体多模态智能驾驶上海政策服务业规划

推荐理由：上海明确将多模态智能体和智能驾驶列为重点方向，做AI应用和自动驾驶的团队可以提前布局政策红利场景。

原文

11:12

OpenRouter@OpenRouterAI

精选76°

MiniMax 发布了 M3 模型，这是首个同时具备编码、智能体与多模态能力的开源权重模型。在 SWE-Bench Pro 上达到 59.0%，Terminal Bench 2.1 上 66.0%，并支持 1M 上下文窗口。模型原生多模态，从零开始训练，权重和技术报告将在约 10 天后公开。API 已上线 platform.minimax.io，并提供 MiniMax Code 工具。

AI模型 MiniMax M3 开源模型编码智能体多模态

推荐理由：MiniMax M3 把编码、智能体和多模态三个前沿能力打包进一个开源模型，做 AI 应用开发或智能体研究的团队可以直接用 API 体验，值得关注即将开源的权重。

原文

11:11

OpenRouter@OpenRouterAI

精选76°

MiniMax-M3 是一款前沿开源权重模型，已在 OpenRouter 平台上线。它集成了 100 万 token 的超长上下文窗口、顶尖的编程与智能体能力，以及原生支持图像和视频的多模态处理。该模型在编码和智能体任务上表现卓越，同时保持了开源特性，为开发者和研究者提供了强大的工具。其 1M token 上下文窗口尤其适合处理长文档、复杂代码库和多模态数据融合场景。

AI模型 MiniMax-M3 开源模型长上下文多模态编程助手

推荐理由：MiniMax-M3 把长上下文、强编码和多模态塞进一个开源模型里，做复杂智能体或长文档处理的团队可以直接在 OpenRouter 上试，省去自己部署的麻烦。

原文

11:07

lmarena.ai@lmarena_ai

精选76°

MiniMax 发布开源权重模型 M3，首次在单一模型中融合编码、智能体与多模态三大前沿能力。在 SWE-Bench Pro 上达到 59.0%，Terminal Bench 2.1 为 66.0%，并支持 1M 上下文长度。模型已上线 Arena 的文本、视觉、文档和代码竞技场，用户可投票评测。权重和技术报告将在约 10 天后公开。

AI模型 MiniMax M3 开源模型编码智能体多模态 Arena

推荐理由：MiniMax M3 把编码、智能体和多模态塞进一个开源模型，做 AI 应用和 Agent 开发的团队可以直接在 Arena 上测效果，省去自己搭环境的时间。

原文

10:24

arXiv cs.LG@Dylan Steiner, Gustavo Arango-Argoty, Gerald Sun, Etai Jacob

多模态肿瘤模型能做出准确预测，但无法判断其是否学到跨模态共享的生物学、单一模态的生物学，还是虚假相关性。研究者提出DECAT，一个模型无关的后验评估框架，通过五个零假设参考指标和规则决策，将多模态表征分为四种诊断场景。在合成数据（2500+训练表征）和真实TCGA数据（8979名患者）上验证，发现CLIP等纠缠模型在检测共享生物学上近乎完美，但在大多数不存在共享生物学的情况下错误声称存在，且错误率随混杂强度增加。DECAT无需知道具体混杂因素，就能检测出AUROC无法发现的混杂。

论文多模态医学AI 评估框架混杂检测 DECAT

推荐理由：做多模态医学AI的团队终于有了判断模型是否学到真实生物学的工具——DECAT能揪出被AUROC掩盖的虚假关联，建议做肿瘤多模态研究的开发者点开看看。

原文

10:12

arXiv cs.LG@Utsav Dutta, Gerardo Pastrana, Sina Khoshfetrat Pakazad, Henrik Ohlsson

CHARM是一种基于Transformer的通道感知表示模型，通过将通道级文本描述集成到编码器中，实现了对异构多变量时间序列的通用表示学习。该模型采用联合嵌入预测架构（JEPA）训练，并引入新损失函数以促进信息丰富且时间稳定的嵌入，在潜在空间预测中增强对传感器噪声的鲁棒性。在异常检测、分类和短期/长期预测任务中，仅使用线性探针即可达到强性能。性能提升主要归功于JEPA目标和条件架构，文本描述作为通道标识符支持跨数据集泛化。

论文时间序列多模态 JEPA Transformer 表示学习

推荐理由：CHARM解决了多变量时间序列表示学习的通用性问题，做传感器数据分析、工业监控或金融时序预测的团队可以直接用线性探针获得强性能，值得关注其跨数据集泛化能力。

原文

5月30日

12:53

Geek@geekbb

精选

阿里云推出 Model Studio CLI（百炼 CLI），这是一个官方命令行工具，支持与 Qwen 系列模型进行文本对话、多模态理解（图片、音频、视频）、图片与视频生成编辑、语音合成识别、知识库检索及网页搜索等功能。该工具将阿里云 AI 平台能力集成到终端，方便开发者通过命令行快速调用。项目已开源在 GitHub，适合需要自动化或脚本化调用 AI 能力的场景。

AI产品阿里云百炼 CLI 命令行工具多模态开源/仓库

推荐理由：百炼 CLI 把阿里云的多模态和搜索能力直接搬到了命令行，做自动化脚本或需要批量调用 AI 的开发者可以省去写 API 调用的麻烦，值得一试。

原文

05:39

Jeff Dean@JeffDean

精选

在Logan Kilpatrick主持的对话中，Gemini联合负责人Jeff Dean、Oriol Vinyals、Noam Shazeer和Koray Kavukcuoglu分享了Gemini的当前进展、发展历程及下一步计划。对话未披露具体基准分数或版本号，但涉及模型在多模态和推理能力上的方向。

行业 Gemini Google 多模态推理模型

推荐理由：听Gemini团队聊模型走向

原文

03:36

Logan Kilpatrick@OfficialLoganK

精选

Gemini联合负责人Jeff Dean、Koray Kavukcuoglu、Noam Shazeer和Oriol Vinyals在一场对话中回顾了Gemini的发展历程。他们讨论了Gemini在多模态推理和编程任务上的性能表现。对话还展望了下一步在Agent和工具使用能力上的增强方向。

AI模型 Gemini Google 多模态对话

推荐理由：Gemini团队亲自聊未来

原文

00:23

AK@_akhaliq

精选

DynaFLIP 提出一种基于三模态（视觉、触觉、动力学）的表示学习方法，用于提升机器人对物体动态交互的理解。在 RoboTouch 和 DexYCB 等基准上，DynaFLIP 相比单模态基线提升了 15% 的抓取成功率。该方法利用自监督动力学预测任务对齐多模态特征，无需大量标注数据。实验显示，DynaFLIP 在零样本迁移到新物体时泛化性优于现有方法。

AI模型 DynaFLIP 机器人感知多模态表示学习

推荐理由：让机器人看懂手-物交互

原文

5月29日

23:50

AK@_akhaliq

精选

Qwen-VLA 是一个统一的视觉-语言-动作模型，旨在跨任务、环境和机器人本体进行泛化。该模型通过融合视觉与语言指令，直接输出机器人动作。在多个基准测试中，Qwen-VLA 展示了优于现有方法的性能，尤其是在零样本泛化场景。其架构基于 ViT-L 视觉编码器和 Qwen2.5 语言基座。

AI模型 Qwen-VLA 机器人多模态视觉-语言-动作

推荐理由：通才机器人模型来了

原文

12:15

OpenRouter@OpenRouterAI

精选76°

StepFun 发布了 Step 3.7 Flash 模型，这是一款面向智能体、编码、搜索和多模态工作流的高效模型。该模型采用 198B 稀疏 MoE 架构，仅激活约 11B 参数，支持 256K 上下文和三种推理级别，推理速度达 400 TPS。在 ClawEval-1.1、SimpleVQA Search 和 SWE-PRO 等基准测试中表现领先，并支持视觉理解、工具调用和本地运行。模型权重以 Apache 2.0 开源，可在 Mac Studio、DGX Spark 等设备上运行。

AI模型智能体推理模型开源/仓库编程助手多模态

推荐理由：Step 3.7 Flash 解决了智能体场景中速度与可靠性的平衡问题，做智能体开发、编码自动化和多模态应用的团队可以直接用开源权重部署，值得一试。

原文

12:15

OpenRouter@OpenRouterAI

精选

阶跃星辰的 Step 3.7 Flash 模型已在 OpenRouter 平台上线。该模型是一个多模态（图像/视频/文本）MoE 架构，总参数量达 196B，但推理时仅激活 11B 参数，效率极高。模型针对编程、智能体工作流和结构化输出进行了专门调优，并支持可选的推理级别，用户可根据需求在速度、成本和深度之间灵活权衡。

AI模型阶跃星辰 Step 3.7 Flash MoE 多模态编程助手

推荐理由：做编程和智能体开发的团队终于有了一个高效的多模态 MoE 选择——196B 参数只激活 11B，成本可控且支持灵活推理级别，建议在 OpenRouter 上直接试。

原文

09:07

09:07IT之家（博客/媒体）

精选76°

阶跃星辰今日发布并开源 Step 3.7 Flash，这是一款面向 Agent 生产化阶段的新一代 Flash 模型。该模型采用稀疏 MoE 架构，总参数 196B，激活参数 11B，最高生成速度达 400 Tokens/s，适合高频、多轮、低等待的 Agent 应用。Step 3.7 Flash 具备原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排等能力，并针对主流 Agent 框架和 MCP 协议进行了兼容优化。开源链接包括 Model Page、GitHub、Huggingface 和 Modelscope，国内海外平台均提供 API 接入。

AI模型阶跃星辰 Step 3.7 Flash 开源/仓库 Agent/智能体多模态

推荐理由：做 Agent 开发的团队终于有了一个原生优化、速度极快的开源模型——Step 3.7 Flash 直接兼容 Claude Code、MCP 等主流框架，接入成本低，值得立刻试跑。

原文

09:06

NVIDIA AI@NVIDIAAI

精选76°

NVIDIA 宣布推出 Step 3.7 Flash 模型，这是一个 198B 参数的混合专家（MoE）模型，但仅需 11B 活跃参数即可运行，大幅降低推理成本。该模型支持 256K 上下文长度，并原生支持图像和视频输入。即日起可在 build.nvidia.com 上通过 GPU 加速端点使用，也可通过 NVIDIA NIM 微服务部署，并支持使用 NeMo 框架进行微调。这一发布标志着 NVIDIA 在高效大模型领域的重要进展，尤其适合需要多模态理解和长上下文处理的应用场景。

AI模型 Step 3.7 Flash NVIDIA MoE 多模态长上下文

推荐理由：198B 参数但仅 11B 活跃，推理效率极高，做多模态应用或长文档处理的团队可以直接在 NVIDIA 平台试用，省成本又省心。

原文

5月28日

23:48

AK@_akhaliq

该研究提出了一种名为 Agent Explorative Policy Optimization (AEPO) 的新方法，用于优化多模态智能体的推理策略。通过探索性策略优化，智能体能够在复杂多模态环境中更有效地进行推理和决策。实验表明，AEPO 在多个基准测试上显著提升了智能体的性能，尤其是在需要多步推理和跨模态理解的任务中。这项工作为构建更强大的多模态智能体提供了新的训练范式。

论文智能体多模态推理模型强化学习 AEPO

推荐理由：多模态智能体推理是当前 AI 的前沿方向，AEPO 为开发者提供了一种可落地的训练优化思路，做智能体或多模态应用的团队值得关注。

原文

10:28

Google Gemini App@GeminiApp

Google 宣布 Gemini Omni 现已面向所有 Google AI Plus、Pro 和 Ultra 订阅用户开放，支持网页版和 Gemini 应用。该功能提供了更强大的多模态交互能力，用户可以在对话中同时处理文本、图像和音频。此次开放标志着 Gemini 在多模态 AI 领域的重要进展，订阅用户可以直接体验。

AI产品 Gemini 多模态订阅服务 AI 助手 Google

推荐理由：多模态交互是 AI 的下一个关键方向，Gemini Omni 让订阅用户能同时处理文本、图像和音频，做内容创作或数据分析的团队值得立即体验。

原文

5月26日

16:35

marktechpost@Sana Hassan

本文是一篇技术教程，详细介绍了如何使用 TuringEnterprises/Open-MM-RL 数据集构建完整的多模态强化学习与可验证奖励（RLVR）管线。教程涵盖数据集加载、模式检查、领域分析、问题长度与答案类型统计、图像分布可视化等预处理步骤。还构建了轻量级奖励函数，支持精确匹配与语义评分，并演示了 GRPO 导出流程。该管线为多模态推理任务提供了可复现的实践框架，适合研究者和开发者快速上手。

论文多模态强化学习 RLVR GRPO Open-MM-RL

推荐理由：多模态 RLVR 是当前强化学习与视觉语言结合的热点方向，这篇教程从数据集到奖励函数再到导出一步到位，做多模态推理或 RL 研究的团队可以直接照着搭，省去自己踩坑的时间。

原文

11:49

arXiv cs.AI@Junyuan Liu, Xinglei Wang, Zichao Zeng, Jiazhuang Feng, Quan Qin, Ilya Ilyankou, Guangsheng Dong, Tao Cheng

精选

城市表示学习将复杂城市环境编码为通用嵌入，但现有评估多局限于少数城市和任务，且随机划分导致空间泄漏，高估性能。CityRep 提出统一基准，包含空间单元无关的评估框架、基于区块的空间划分协议，以及覆盖 8 城市 8 任务的可扩展套件。评估 11 个模型发现，随机划分会扭曲性能排名，且模型表现因城市和任务差异显著。该基准提供数据集、评估管道和诊断工具，旨在推动城市表示学习的公平比较和泛化能力研究。

论文城市表示学习基准测试空间划分泛化评估多模态

推荐理由：城市表示学习领域终于有了一个靠谱的评估标准——CityRep 解决了空间泄漏和跨城市泛化评估的痛点，做城市计算或地理空间 AI 的研究者可以直接用这个基准来检验自己的模型，避免被随机划分的虚假高分误导。

原文

5月25日

20:56

阿里云 Alibaba Cloud@alibaba_cloud

在Qwen Conference 2026上，行业领袖和生态先驱在基础模型论坛中围绕“Qwen的多模态未来”展开圆桌讨论。他们探讨了驱动跨模态对齐的架构变革，并深入分析了AI原生趋势。会议旨在揭示多模态AI的最新进展和未来方向。活动详情可通过链接获取。

行业多模态 Qwen 架构变革 AI原生圆桌讨论

推荐理由：关注多模态AI架构演进的开发者，这场圆桌讨论能帮你理解跨模态对齐的核心技术趋势，值得一看。

原文

17:54

AI Will@FinanceYF5

精选

OpenAI 发布 ChatGPT Images 2.0，但核心不是图像模型，而是将图像视为一种语言，融入主干而非附加功能。Altman 强调从 GPT-3 直接跨越到 GPT-5，官方博客以「图像是语言，不是装饰」开篇，表明战略转向。这意味着图像生成与理解将深度集成到对话中，改变用户与 AI 交互的方式。

AI产品 ChatGPT 图像生成多模态 OpenAI 战略升级

推荐理由：OpenAI 把图像从附加功能提升为对话主干，做内容创作或产品设计的团队值得关注——这可能会改变你使用 AI 的方式。

原文

17:53

AI Will@FinanceYF5

精选

OpenAI 将图像输出定价为每百万 tokens 30 美元，与文字定价并列在同一价目表上。这标志着图像不再只是消费品，而是成为 agent 经济中的最小原语，和文字一样可编程调用、按字节计量、流式组合。这种定价模式意味着图像与文字在 AI 系统中被同等对待，开发者可以像调用文字一样调用图像，实现更灵活的 AI 应用。这一变化对构建多模态 agent 的团队影响深远。

AI产品 OpenAI 图像定价 agent 经济多模态 tokens

推荐理由：图像定价与文字统一，意味着多模态 agent 开发成本首次透明化，做 AI 应用和 agent 的团队值得关注这个定价信号。

原文

17:38

Philipp Schmid@_philschmid

精选

谷歌Gemini 3.5 Flash在视频理解、图像和音频等多模态任务中表现优异，但目前关注度不高。作者Phil Schmid认为该模型的能力被严重低估。该模型支持多种输入模态，适合复杂的多模态推理场景。

AI模型 Gemini 3.5 Flash 视频理解多模态

推荐理由：谷歌的Gemini 3.5 Flash多模态能力被严重低估了

原文

14:42

阿里云 Alibaba Cloud@alibaba_cloud

阿里云将于5月26日在新加坡金沙会展中心举办Agentic AI前沿峰会，汇聚行业先驱与远见者。会议将深入分析Agentic AI的核心基础设施及跨行业多模态工作流。该峰会旨在探讨AI代理技术的最新进展与行业应用，为参会者提供前沿洞察。活动详情可通过链接获取。

行业阿里云 Agentic AI 多模态行业峰会新加坡

推荐理由：想了解Agentic AI最新趋势的开发者与行业决策者，这场峰会值得关注——阿里云将展示从底层基础设施到跨行业应用的全景图。

原文

10:16

Pandaily@contact@pandaily.com (Pandaily)

精选

字节跳动开源了原生多模态模型Lance，可在40GB显存上本地运行。该模型发布一天内登上了Hugging Face趋势榜。Lance支持图像、文本等多种模态的联合理解与生成。

AI模型 Lance ByteDance 多模态开源模型本地部署

推荐理由：字节开源40GB可跑的多模态模型

原文

5月24日

16:36

阿里云 Alibaba Cloud@alibaba_cloud

5月26日，Picsart视频产品主管Narek Hayrapetyan将在新加坡金沙会展中心分享多模态AI如何彻底改变视觉创作。活动由阿里云主办，聚焦AI在图像和视频生成中的实际应用。参与者可现场了解多模态模型如何提升创作效率。

行业多模态视频生成大模型阿里云

推荐理由：听Picsart高管讲多模态创作

原文

16:02

阿里云 Alibaba Cloud@alibaba_cloud

阿里巴巴通义大模型业务部多模态交互负责人Steven Hoi教授将于5月26日在新加坡金沙会展中心发表主题演讲，探讨Agent时代的基础模型。该演讲聚焦于基础模型如何支撑智能体应用的发展。活动面向AI从业者和研究者开放注册。

行业 Agent 大模型多模态智能体

推荐理由：阿里专家讲Agent时代基础模型

原文

5月23日

02:16

Logan Kilpatrick@OfficialLoganK

精选

Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro。其平均推理速度快约6倍，大幅降低延迟。该模型在多模态理解上展示出更强能力，尤其适合视觉密集型任务。

AI模型 Gemini 3.5 Flash Gemini 3.1 Pro Google 多模态视觉理解

推荐理由：谷歌新 Flash 视觉又快又准

原文

01:48

Ethan Mollick@emollick

76°

Ethan Mollick 指出，Gemini Omni 与其他视频 AI 的关键区别在于其完全多模态能力，可以原生编辑视频。他展示了将1896年经典电影《火车进站》中的火车改为子弹头列车、乐高风格，并添加时间旅行者、蜈蚣和布偶等元素。视频中甚至保留了反射效果，体现了 Gemini Omni 对视频内容的深度理解和编辑能力。这一演示凸显了 Gemini Omni 在视频生成和编辑领域的独特优势。

AI产品 Gemini Omni 多模态视频编辑 AI 演示原生编辑

推荐理由：Gemini Omni 的原生视频编辑能力让创作者可以直接在视频中做复杂修改，做视频内容或 AI 应用的开发者值得关注，看看它如何理解并重构视频场景。

原文