全部 AI 动态 · AI 热点

6月30日

01:57

AWS Machine Learning Blog@Sanghwa Na

精选

AWS 博客展示如何用 Amazon Nova 2 Lite 和 Claude Sonnet 4.6 构建两模型管道，用于扫描文档的数字化。Nova 2 Lite 在单次调用中完成多模态提取（检测照片、提取姓名坐标、返回页面元数据）。Claude Sonnet 4.6 根据版面布局进行空间推理，将姓名和面孔匹配。该管道在 Amazon Bedrock 上运行，通过分工降低总处理成本。

技巧 Amazon Nova 2 Lite Claude Sonnet 4.6 Amazon Bedrock 文档数字化多模态

推荐理由：用 Nova 2 Lite 做粗提取，Claude Sonnet 4.6 做精准匹配，文档数字化省心又省钱。

原文

6月29日

18:50

量子位@量子位的朋友们

OceanBase推出AI数据库版本，将湖仓一体、多模态数据与AI能力集成于单一引擎。该版本支持SQL+AI混合查询，可同时处理结构化表格、非结构化文本及图片等数据。OceanBase在TPC-C、TPC-H等基准测试中保持领先性能，新版本使企业无需额外ETL即可直接运行AI模型。

AI产品 OceanBase 数据库多模态湖仓一体 AI数据库

推荐理由：OceanBase这次更新把数据库和AI揉在一起了，一个引擎搞定表格、文本和图片，省了来回搬数据的麻烦。

原文

16:34

pandaily@contact@pandaily.com (Pandaily)

具身智能公司智平方（Zhipingfang）完成约50亿元新融资。其估值突破200亿元（约28亿美元），成为粤港澳大湾区首个具身智能独角兽。核心采用类脑NeuroVLA架构，模拟人脑多模态信息处理机制。

行业 Zhipingfang NeuroVLA 具身智能类脑智能多模态

推荐理由：智平方刚融了50亿，估值200亿，靠类脑NeuroVLA搞具身智能，大湾区第一个独角兽，挺有看头。

原文

6月26日

11:39

11:39IT之家（博客/媒体）

Mistral AI 于6月23日发布OCR 4文档识别模型。该模型支持横跨10个语族的170种语言，在OmniDocBench基准上获得93.07分，优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。OCR 4提供边框、区域分类和置信度评分，并支持RAG语义分块等下游任务。基础API定价每千页4美元，批处理可享50%优惠。

AI模型 Mistral AI OCR 4 多模态文档识别 RAG

推荐理由：Mistral出了新OCR模型，支持170种语言，评分比GPT和Gemini都高，处理文档识别可以试试它。

原文

6月25日

16:06

16:06IT之家（博客/媒体）

精选

商汤科技正在研发代号U1 Pro的多模态模型，聚焦设计场景，对标OpenAI GPT-Image 2。该模型由联合创始人林达华牵头，属于日日新家族，预计7月启动内部邀请测试。支持8K分辨率输出，能实现设计-生成-评审长程循环。内部评测显示，相同提示词下U1 Pro生成图片质量接近甚至优于GPT-Image 2。LMSYS Chatbot Arena中GPT-Image 2文生图评分领先谷歌Nano Banana 2。

AI模型商汤科技 U1 Pro GPT-Image 2 多模态图像生成

推荐理由：商汤新模型U1 Pro专攻设计，对标GPT-Image 2，内部评测更优，支持8K输出，7月内测。

原文

6月24日

17:51

Decoder@Maximilian Schreiner

Mistral AI推出OCR 4模型，专门用于从PDF、Word和PowerPoint等文档中读取文本。公司称在盲测中，OCR 4在72%的案例中表现优于竞品。该模型专注于文档文本提取，与现有OCR方案相比有显著提升。

AI模型 Mistral OCR 4 文档处理多模态基准测试

推荐理由：Mistral新出的OCR 4在盲测里赢了七成多对手，专治PDF和PPT文字提取，文档党可以看看。

原文

09:45

09:45IT之家（博客/媒体）

71°

火山引擎发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性，减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等，直接产出完整音频作品。火山方舟已开启API邀测，个人用户可体验30分钟创作额度。

AI模型豆包音频生成模型1.0 火山引擎音频生成多模态音色一致性

推荐理由：火山引擎新模型能一次编排对白、音效、配乐，还能保持10分钟的角色音色一致，省掉后期对轨修音，音频创作者值得一试。

原文

08:24

08:24SuperTechFans（博客/媒体）

精选

Mistral于2026年6月24日发布OCR 4模型，新增边界框、区块分类和置信度分数。该模型在内部盲评和公开基准测试中性能领先，支持170种语言，可自托管部署。

AI模型 Mistral OCR 4 多模态自托管模型发布

推荐理由：Mistral新出的OCR 4能自己部署，支持170种语言，还带边界框和置信度分数，识别效果领先，做文档处理很合适。

原文

6月23日

10:06

10:06IT之家（博客/媒体）

字节跳动发布的豆包Seed 2.1系列包括Pro和Turbo两个版本，Pro面向高复杂度任务，Turbo面向大规模生产。该系列在Coding工程交付、Agent长链路任务执行和多模态理解三大方向实现升级。价格方面，Pro模型推理输入6元/百万tokens（缓存命中1.2元），推理输出30元/百万tokens；Turbo模型推理输入3元/百万tokens（缓存命中0.6元），推理输出15元/百万tokens。同时发布了每周至少更新一次版本的Seed-Evolving模型和面向泛娱乐的角色模型Character。

AI模型豆包Seed 2.1 字节跳动推理模型多模态智能体

推荐理由：字节新出的豆包Seed 2.1 Pro和Turbo，专门优化编程、智能体和多模态任务，Pro适合高难度场景，Turbo便宜且效率高，很适合接项目用。

原文

00:48

AWS Machine Learning Blog@Gilbert V Lepadatu

精选

AWS博客介绍了基于Amazon Bedrock和OpenSearch Serverless构建的可搜索航空影像系统架构。团队使用OpenStreetMap地面实况数据设计了四项实验，对比了嵌入模型、融合策略、字幕生成和搜索方法。其中Amazon Nova Multimodal Embeddings在基准查询中取得了最高的F1分数。该系统最终演变为Vexcel Intelligence产品，为地理空间语义搜索提供了实用指导。

AI模型 Amazon Nova Multimodal Embeddings Amazon Bedrock OpenSearch Serverless 多模态地理空间搜索

推荐理由：AWS用Amazon Nova做航空影像搜索，F1分数最高，想搞地理空间搜索的可以参考他们的实验设计。

原文

6月22日

21:30

21:30IT之家（博客/媒体）

生数科技的新一代视频生成大模型 Vidu Q3 上线华为云 MaaS，支持文生视频和图生视频一体化成片。该模型是全球首个“为剧而生”的视频大模型，可生成 16 秒 1080P 画质内容，并实现声画同出、多镜头叙事。Vidu Q3 推出两个版本：Turbo 极速版优化推理速度与成本，适合快速创意打样；Pro 专业版支持 4K 分辨率，面向广告大片等专业场景。模型还具备多国语言文字渲染及多语言输出功能，可用于漫剧、短剧和影视创作。

AI模型 Vidu Q3 华为云生数科技视频生成多模态

推荐理由：生数 Vidu Q3 上线华为云，能一键文/图生视频，支持 16 秒 1080P 和 4K，还有专为剧集设计的镜头叙事能力，做短视频或专业视频都合适。

原文

16:45

16:45IT之家（博客/媒体）

71°

京东发布并开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，获得vLLM-Omni的day-0原生支持。该模型能持续观察视频流，自主判断何时响应，而非被动等待用户提问。在58个真人盲评案例中，JoyAI-VL-Interaction对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%。它支持摄像头、直播流、监控流等多种视频输入，并具备后台智能体委托能力。

AI模型 JoyAI-VL-Interaction 京东多模态智能体开源模型

推荐理由：京东开源了JoyAI-VL-Interaction，能实时看视频主动说话，安防、直播都能用，盲评胜率比豆包和Gemini高一大截。

原文

10:48

Pandaily@contact@pandaily.com (Pandaily)

ByteDance Seed与学术合作伙伴提出SpatialTree，这是一个分层框架，旨在重新定义多模态大模型（MLLM）对空间的理解与推理能力。该工作已被计算机视觉顶级会议CVPR 2026接收。SpatialTree通过层级结构显著提升MLLM在空间任务上的表现。

AI模型 SpatialTree ByteDance Seed CVPR 2026 多模态空间智能

推荐理由：字节跳动Seed搞了个SpatialTree框架，专门提升多模态模型的空间推理能力，还被CVPR 2026接受了，值得一看。

原文

6月20日

10:18

pandaily@contact@pandaily.com (Pandaily)

小米发布并开源了Miloco 2.0全屋AI系统，具备多模态感知能力，可识别用户行为和场景。该系统支持主动智能，能预测需求并执行持续任务，如自动调节灯光温度。Miloco 2.0拥有家庭记忆功能，可记住家庭成员的偏好和习惯。该系统被比作钢铁侠的JARVIS管家，面向中国家庭提供个性化服务。

AI模型小米 Miloco 2.0 智能家居多模态开源模型

推荐理由：小米开源了Miloco 2.0，一个像JARVIS一样有记忆能主动帮忙的智能家居AI，多模态和家庭记忆功能很实用。

原文

07:27

07:27IT之家（博客/媒体）

苹果将于今秋推送visionOS 27，M5版Vision Pro独占Siri语音定制功能，用户可调整语气的表现力和语速。M5版还独占AFM 3 Core Advanced模型，该模型支持原生多模态能力并采用稀疏架构，可在本地执行更复杂的AI任务。M2版Vision Pro仍可享受visionOS 27的大部分升级，包括全景照片转空间场景、重新设计的控制中心以及更智能的自然语言理解。苹果未来计划通过云端计算为M2设备提供部分AI功能折中方案，但细节未公布。

AI产品 visionOS 27 M5 Vision Pro Siri AFM 3 Core Advanced 多模态

推荐理由：苹果给M5 Vision Pro加了本地AI模型和自定义Siri语音，其他头显暂时没有，等正式版可以试试效果。

原文

6月19日

10:23

10:23IT之家（博客/媒体）

谷歌与艺术家Refik Anadol合作的全球首个AI艺术博物馆Dataland将于6月20日在洛杉矶开馆，面积约2500平方米。开幕展“Machine Dreams: Rainforest”由Large Nature Model驱动，该模型基于自然世界数据集训练。博物馆使用Google Cloud工具（包括Gemini Enterprise Agent Platform和Compute Engine）协调GANs、扩散模型和Gemini，将数据转化为12亿像素的超现实画面。系统可生成动态声景、实时情绪感应并通过算法增强气味，运行使用87%无碳可再生能源。

行业谷歌 Dataland Refik Anadol 多模态 AI艺术

推荐理由：谷歌和艺术家在洛杉矶开了个AI艺术博物馆，进去能看到12亿像素的实时画面，还能感应你的情绪释放气味，挺新鲜的。

原文

6月18日

15:52

15:52IT之家（博客/媒体）

DeepSeek 识图模式已在网页和 App 端正式上线，App 端标注“图片理解功能内测中”，网页端无此提示。该模式与快速模式、专家模式并列，支持用户上传图片让 DeepSeek 解读。其能力不仅是文字提取，还能理解图像内容。背后的多模态模型技术已于今年 4 月公开，核心框架名为“Thinking with Visual Primitives”。

AI产品 DeepSeek 识图模式多模态视觉理解 Thinking with Visual Primitives

推荐理由：DeepSeek 现在能识图了，App 和网页都能用，不只是 OCR，还能理解画面，背后有专门的多模态技术。

原文

12:35

12:35IT之家（博客/媒体）

73°

阿里与人大联合开源 LOGOS，这是一个基于统一“科学语法”的多领域科学生成基础模型。LOGOS-1B 仅用 1B 参数量，在多项科学任务上超越参数为 8×7B 的微软 NatureLM。模型预训练语料涵盖蛋白质（28.9B tokens）、抗体（3.0B tokens）、小分子（2.1B tokens）等 7 类模态共 44.87B tokens。它通过共享词表将异构对象编码为离散 token，无需 3D 坐标即可理解 3D 空间互作规律。LOGOS 已开源模型权重、推理代码与技术报告。

AI模型 LOGOS NatureLM 开源模型科学大模型多模态

推荐理由：阿里开源的 LOGOS 模型，用 1/56 参数就碾压了微软 NatureLM，还统一了蛋白质、小分子等科学对象的语言，搞科研的可以看看源码和论文，开箱即用。

原文

6月17日

07:57

07:57IT之家（博客/媒体）

彭博社马克·古尔曼爆料，苹果带摄像头的AirPods将延迟到2027年发布。延迟原因是苹果在Apple智能/Siri AI方面面临开发挑战，同时需优化用于识别周围物体的视觉AI模型。该耳机左右均配备低分辨率摄像头，外观类似AirPods Pro 3。苹果还在探索通过摄像头提供基于视觉的提醒和逐向导航功能。

AI产品 AirPods 苹果摄像头 AI开发多模态

推荐理由：苹果因为AI研发挑战，把带摄像头的AirPods推迟到2027年了，想实现视觉导航的功能还得等。

原文

07:29

07:29IT之家（博客/媒体）

谷歌正式推送 Android 17 系统，并同步发布 Wear OS 7。新版安卓深度集成 AI 模型，包括音乐生成模型 Lyria 3、多模态大模型 Gemini Omni 以及基于 AudioLM 的语音翻译工具。Pixel 系列设备率先获得更新，Pixel 10a 搭载实时同声传译功能。系统新增同屏录摄、气泡任务栏、折叠屏游戏模式等实用功能。Wear OS 7 续航提升 10%，并新增紧急状况检测和 Gemini 智能功能。

AI产品 Android 17 Gemini Omni Lyria 3 Wear OS 7 多模态

推荐理由：谷歌刚推的Android 17，深度集成了AI，能用Lyria 3生成音乐、Gemini Omni剪视频、AudioLM实时翻译，Pixel 10a还有新功能，挺实用。

原文

6月16日

22:28

量子位@梦瑶

AI产品鸿蒙小艺华为智能体多模态 AI助手

推荐理由：华为小艺升级后能和朱广权说脱口秀，能主动调度应用、自进化，不是普通问答助手，值得试试。

原文

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:38

12:38IT之家（博客/媒体）

72°

苹果 iOS 27 的 AI 版 Siri 上线延迟，项目负责人迈克·罗克韦尔透露，去年已有迭代版本但未达预期，最终决定从零重构。新版 Siri 基于底层大模型，支持多模态交互，覆盖 iPhone、iPad、Mac、Apple Watch、Vision Pro、CarPlay、AirPods 全平台，隐私保护贯穿架构。

AI产品 Apple Siri iOS 27 多模态隐私保护

推荐理由：苹果总算说了实话！Siri 迟到是因为推倒重来，现在能跨设备统一体验还支持多模态，比旧版强太多了。

原文

09:37

AWS Machine Learning Blog@Aris Tsakpinis

精选

Google DeepMind 发布的 Gemma 4 开源权重模型系列现已在 Amazon Bedrock 上可用。该系列包含三个指令调优变体：Gemma 4 31B（密集架构）、26B-A4B（MoE 架构，每次激活 4B 参数）和 E2B。所有变体均支持内置推理、原生函数调用以及文本和图像多模态输入。模型基于 Apache 2.0 许可发布，旨在多种部署场景下实现每参数智能最大化。

AI模型 Gemma 4 Amazon Bedrock Google DeepMind 开源模型多模态

推荐理由：Google DeepMind 把最新的 Gemma 4 放到 AWS 上了，三种规格可选，带推理和图文理解，正好拿来玩开源项目。

原文

6月15日

23:15

23:15IT之家（博客/媒体）

78°

稀宇科技于6月12日开源了 MiniMax M3 模型权重，总参数428B，激活参数23B。M3 是首个从 Step 0 开始进行多模态混合训练的开源模型，支持百万上下文。发布两周后，M3 在 Artificial Analysis 综合智能指数排行榜上获得全球开源模型最高排名。模型输出速度已从30 TPS提升至约80 TPS，后续还将提速30-40%。在编码与智能体评测中达到行业顶尖水平，具备自主任务拆解、工具调用与多步推理能力。

AI模型 MiniMax M3 多模态开源模型百万上下文智能体

推荐理由：MiniMax 开源了原生多模态巨无霸 M3，428B参数、百万上下文，全球开源排名第一，还能自主拆任务调工具，速度从30飙到80 TPS。

原文

17:36

17:36IT之家（博客/媒体）

精选

理想在 Livis Day 上宣布马赫 Mind-Pro 模型全面落地 L9。该模型在 IFEval 指令跟随、LongBench-v2 超长文本理解、AIME26 高阶数学推理、BFCL-v4 工具调用等基准上位列第一梯队。其 Token 生成速度、任务完成质量、成本、端到端响应时延达到可量产水平。模型采用多模态流式时序建模，能连续理解动态物理世界并自主决策。所有能力在车端本地完成，数据不上传。

AI模型马赫 Mind-Pro 理想 L9 多模态车载AI

推荐理由：理想把马赫 Mind-Pro 模型塞进 L9 了，指令跟随和推理稳居第一梯队，多模态本地跑还不传数据，车载 AI 这波挺实在。

原文

6月14日

07:21

宝玉的分享@宝玉

文章指出 Claude Design 的核心能力在于模型能同时处理 UI/UX、数据结构、状态管理和交互逻辑，而非依赖 Harness 工具。Codex 目前缺乏类似产品，因为其模型在跨领域整合上存在差距。作者分析认为，Codex 需要提升模型对多模态和逻辑的协同处理能力，才能推出类似产品。

AI模型 Codex Claude Design 多模态 UI/UX 模型能力

推荐理由：分析 Codex 与 Claude Design 的差距

原文

01:21

Decoder@Jonathan Kemper

Count Anything 是首个能通过文本提示计数任意图像中物体的 AI 模型，在对比测试中将错误率降低 50%。该模型可处理从人群到显微镜下细胞样本等场景，但在极度密集物体和模糊术语上仍有困难。

AI模型 Count Anything 计数模型多模态图像分析

推荐理由：计数准确率翻倍

原文

6月13日

17:51

17:51IT之家（博客/媒体）

科大讯飞在2026长三角机器人及自动化展览会上发布星火多模态大模型 X2-VL，这是当前唯一基于全国产算力训练的主流大模型，采用专属 MoE 架构。该模型基于无锡本地算力平台太湖星跃平台加速训练。在高中各科图文试题测试中，X2-VL 答题准确率接近95%。在挑战2026年高考数学全国I卷中，X2-VL 获得148分，超过模型A（144分）和模型B（143分）。

AI模型星火X2-VL 科大讯飞多模态国产算力 MoE架构

推荐理由：国产算力训练的模型，高考数学148分

原文

17:22

量子位@一水

精选

Jiuwen Symbiosis是一个将AI Agent与物理实体结合的框架，通过整合传感器、执行器和实时控制，使Agent能直接与环境交互。该框架在工业机器人测试中实现了90%的任务完成率，相比传统方案提升30%。它支持多模态感知（视觉、触觉、力觉）和动态规划，已在仓储物流场景中部署。实践表明，这种具身智能系统能有效处理非结构化环境中的复杂操作。

AI模型 Jiuwen Symbiosis 智能体具身智能多模态工业机器人

推荐理由：让AI Agent动起来干活

原文

13:23

13:23IT之家（博客/媒体）

6月12日，MiniMax 开源了新一代原生多模态旗舰模型 M3。同日，摩尔线程宣布其旗舰级 AI 训推一体智算卡 MTT S5000 已完成对该模型的 Day-0 适配。MTT S5000 凭借硬件级原生 FP8 加速，单卡 AI 算力（稠密）高达 1000 TFLOPS，配备 80GB 显存与 1.6TB/s 带宽，支撑百万 token 级长序列。适配通过原生算子定制提升推理吞吐并降低延迟，同时同步拉起 vLLM 与 SGLang 两大推理框架。

AI模型 MiniMax M3 摩尔线程 MTT S5000 多模态推理框架

推荐理由：摩尔线程让国产模型跑得更快

原文

10:02

pandaily@contact@pandaily.com (Pandaily)

精选

华为在HDC 2026上推出HarmonyOS 7开发者测试版，系统从应用平台转型为智能任务平台。新架构以Agent为核心，支持任务自动编排与跨设备协同。开发者可通过ArkTS语言和API构建智能体，实现语音、视觉等多模态交互。HarmonyOS 7计划于2026年第三季度正式商用。

AI产品 HarmonyOS 7 华为智能体多模态开发者测试版

推荐理由：华为系统全面转向智能体

原文

09:47

09:47IT之家（博客/媒体）

精选

华为云与MiniMax达成深化合作，基于昇腾算力底座为M3模型提供Tokens算力支持。M3采用MSA注意力架构，支持1M超长上下文，是原生多模态模型，可处理图片、视频输入并操作电脑桌面。在SWE-Bench Pro上，M3超过GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在SVG-Bench上超过Opus 4.7；在OmniDocBench上超过Gemini 3.1 Pro；在Claw-Eval上获得最高分。华为云通过昇腾算力优化MSA算子和MOE均衡，保障M3大规模推理性能。

AI模型 MiniMax M3 华为云昇腾多模态

推荐理由：华为云联手MiniMax，M3多模态模型开源

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

17:21

17:21IT之家（博客/媒体）

金山办公在“WPS AI Next”活动中发布了 AI 原生多模态笔记产品——WPS 笔记。该产品摒弃传统笔记“用户整理、工具存储”的旧范式，将 AI 能力贯穿从记录到复用的全过程。它支持语音、图片、文字、网页等多模态录入，具备实时转写与 AI 纠正、多级 AI 自动标签、全域多模态检索等功能。此外，WPS 笔记还内置 WPS 灵犀助手，并支持外部 MCP 接入，让笔记成为 AI 应用的知识入口。体验者认为，WPS 笔记重构了笔记应用的设计逻辑，真正实现了知识的无缝流动。

AI产品 WPS 笔记 AI 笔记多模态知识管理 MCP/工具

推荐理由：WPS 笔记用 AI 解决了传统笔记“存了难找、整理费时”的痛点，做知识管理、会议记录、学习整理的人可以直接上手，省去手动分类和检索的麻烦。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

20:42

20:42IT之家（博客/媒体）

字节跳动旗下火山引擎宣布 Agent Plan 和 Coding Plan 限时优惠，即日起至 2026 年 8 月 27 日，新购或续费 40 元、200 元档位可享首两个月 2.5 折，最低 9.9 元/月。两个套餐均集成 MiniMax M3、DeepSeek V4、GLM-5.1 等前沿模型，Agent Plan 还内置字节自研多模态模型和 Harness 工具。这是业界首个“Agent 套餐包”，旨在降低企业使用 AI 智能体和编程助手的门槛。优惠力度大，适合开发者和小团队低成本体验。

AI产品智能体编程助手火山引擎限时优惠多模态

推荐理由：火山引擎把 AI 智能体和编程助手的价格打到了 9.9 元起，做开发或自动化的小团队可以直接薅羊毛，首两个月 2.5 折值得冲。

原文

6月6日

15:24

Decoder@Jonathan Kemper

83°

阿里巴巴Qwen团队发布Qwen3.7-Plus，这是一个多模态智能体模型，集视觉感知、GUI操作和编码于一体。在演示中，基于该模型的智能体自主开发了一款词汇学习应用，在11小时内通过1000次智能体调用生成了超过10000行代码。该模型在Qwen自己的基准测试中屏幕理解能力领先，但整体性能参差不齐。Qwen3.7-Plus是专有模型，未开源，定价远低于西方前沿模型。

AI模型多模态智能体 Qwen3.7-Plus 阿里巴巴自主开发

推荐理由：阿里将多模态AI推向自主智能体新高度，做GUI自动化或端到端应用开发的团队值得关注——它能自己写代码、操作界面，11小时产出上万行代码，效率惊人。

原文

6月5日

22:52

22:52Google Blog: AI（博客/媒体）

Google 在2026年5月发布了一系列AI更新，涵盖模型、产品和工具。其中包括Gemini模型的重大升级，提升了多模态理解和推理能力。同时，Google推出了新的AI编程助手，支持更高效的代码生成和调试。此外，还发布了面向企业的AI解决方案，旨在优化工作流程和决策效率。这些更新标志着Google在AI领域的持续投入，旨在为开发者和企业用户提供更强大的工具。

AI产品 Gemini AI编程助手企业AI 多模态 Google

推荐理由：Google 的5月更新为AI开发者和企业用户带来了更强大的模型和工具，尤其是Gemini的升级和编程助手，值得关注和尝试。

原文

09:56

Pandaily@contact@pandaily.com (Pandaily)

精选

浙江大学与康奈尔大学、新加坡国立大学、西安电子科技大学合作开发视觉推理系统VisualThink-VLA。该系统让机器人直接通过视觉信息推理，无需语言内省，相比文本方法提速22.8倍，同时精度更高。在多个视觉-语言任务上，VisualThink-VLA达到SOTA。

AI模型 VisualThink-VLA Zhejiang University 视觉推理机器人多模态

推荐理由：机器人用眼睛思考，快22倍

原文

04:32

04:32Hugging Face: Blog（博客/媒体）

NVIDIA 推出 Nemotron 3.5 Content Safety，这是一款面向全球企业 AI 的可定制多模态安全模型。它支持文本和图像输入，能够检测有害内容（如仇恨言论、暴力、色情等），并允许企业根据自身政策进行微调。该模型基于 Llama 3.1 架构，提供 8B 和 70B 两种规模，在多个安全基准上表现优异。Nemotron 3.5 旨在帮助企业安全部署生成式 AI，满足不同地区的合规要求。

AI模型 NVIDIA Nemotron 3.5 内容安全多模态企业AI

推荐理由：企业部署 AI 最头疼的就是内容安全合规，NVIDIA 这个模型直接让企业按自己的政策微调安全过滤规则，做 AI 应用落地的团队值得关注。

原文

6月4日

04:27

Decoder@Matthias Bastian

78°

Google DeepMind 发布了 Gemma 4 12B 开源模型，原生支持文本、图像和音频处理，仅需 16GB 内存即可在笔记本上运行。该模型在基准测试中几乎与两倍大小的 26B 模型持平，并采用 Apache 2.0 许可证，允许商业使用。这标志着多模态 AI 在消费级硬件上的重大突破，降低了开发者和企业的使用门槛。

AI模型多模态开源/仓库 Gemma 4 Google DeepMind 本地推理

推荐理由：多模态模型终于能跑在普通笔记本上了，做本地 AI 应用或边缘计算的开发者可以直接下载试试，性能还接近两倍大的模型。

原文

6月2日

17:15

marktechpost@Michal Sutter

83°

阿里Qwen团队在百炼平台推出Qwen3.7-Plus，这是一个多模态智能体模型。它不仅能理解图像和视频，还新增了自主编程、工具调用和深度推理能力。该模型支持视觉理解、复杂推理和自动化迭代，可应用于更广泛的AI任务场景。这标志着阿里在构建全能型AI智能体方面迈出重要一步。

AI模型 Qwen3.7-Plus 多模态智能体工具调用百炼平台

推荐理由：Qwen3.7-Plus把视觉、推理和工具调用整合到一个模型里，做多模态应用的开发者可以直接在百炼平台体验，省去拼接多个模型的麻烦。

原文