全部 AI 动态 · AI 热点

6月2日

06:41

06:41IT之家（博客/媒体）

精选

阿里千问大模型推出 Qwen3.7-Plus，定位为多模态交互混合智能体，在保留文本、编码、工具使用等能力基础上，强化了视觉理解、视觉推理和跨模态任务处理。该模型支持图像、视频、屏幕、网页和文本输入，可在 GUI、CLI 和工具环境中完成复杂软件与办公流程。在 Vision Arena 评测中，阿里凭借该模型进入全球前 5、中国第 1，多模态测试在 BabyVision、MathVision 等基准上提升明显。模型已通过阿里云百炼和 Qwen Studio 提供服务。

AI模型 Qwen3.7-Plus 多模态智能体阿里千问视觉理解

推荐理由：Qwen3.7-Plus 把视觉与语言统一到智能体基座，做多模态应用或办公自动化的团队可以直接在百炼上试，能省掉不少模型拼接的麻烦。

原文

04:47

marktechpost@Asif Razzaq

78°

MiniMax 正式发布新一代大模型 MiniMax M3，采用自研的 MiniMax Sparse Attention（MSA）架构，支持高达 100 万 token 的超长上下文窗口。该模型原生支持图像、视频理解以及计算机使用（computer use）能力，并具备智能体编程（agentic coding）功能。MSA 架构通过稀疏注意力机制显著降低长序列计算成本，使得处理百万级 token 成为可能。这标志着国产大模型在长上下文和多模态融合方面迈出了重要一步，为复杂文档分析、视频理解和自动化编程等场景提供了新的基础设施。

AI模型 MiniMax M3 MSA架构长上下文多模态智能体编程

推荐理由：MiniMax M3 的 1M 上下文和原生多模态能力直接解决了长文档分析和视频理解的痛点，做 RAG 应用或自动化编程的团队值得关注其 agentic coding 特性。

原文

01:32

01:32Google Blog: AI（博客/媒体）

Google 内部团队利用 Gemini 模型辅助制作了 2026 年 I/O 大会的多个环节，包括生成演讲脚本、设计演示素材、优化会议流程等。这展示了 AI 在大型活动策划与执行中的实际应用，从创意生成到后期制作全程参与。Gemini 的多模态能力被用于处理文本、图像和视频内容，显著提升了团队的工作效率。此举也标志着 Google 对自家 AI 产品的深度信任和内部实践。

AI产品 Gemini Google I/O AI 辅助创作多模态活动策划

推荐理由：活动策划和内容制作团队可以看看 Google 如何用 Gemini 把大会筹备效率拉满——从写稿到做素材一条龙，值得借鉴。

原文

6月1日

21:50

Decoder@Jonathan Kemper

78°

中国AI公司MiniMax发布了新模型M3，号称是首个结合顶级编码性能、百万token上下文窗口和原生多模态能力的开源权重模型。该模型在多项基准测试中表现优异，尤其在长上下文任务和代码生成方面，直接挑战GPT-4、Claude等闭源模型。M3的开源特性使得开发者可以自由部署和微调，降低了使用门槛。这一发布标志着开源模型在关键能力上正快速追赶闭源方案。

AI模型 MiniMax M3 开源模型百万token上下文多模态

推荐理由：百万token上下文+开源权重，做长文档处理或代码分析的团队可以直接部署，不用再被闭源API的token计费卡脖子。

原文

15:16

pandaily@contact@pandaily.com (Pandaily)

精选83°

MiniMax 发布了其旗舰模型 M3，声称这是国内首个将前沿编码、智能体能力、100 万 token 上下文窗口和原生多模态处理整合在单一架构中的 AI 模型。M3 模型在多项基准测试中表现出色，尤其在长文本理解和复杂任务执行方面。该模型支持同时处理文本、图像、音频等多种输入，并具备强大的代码生成和工具调用能力。MiniMax 表示 M3 旨在为开发者和企业提供更高效、更全面的 AI 解决方案。

AI模型 MiniMax M3 多模态长上下文智能体

推荐理由：MiniMax M3 将 1M 上下文、多模态和智能体能力打包进一个模型，做长文本处理或多模态应用的开发者可以直接用它替代多个模型组合，省心又高效。

原文

11:17

11:17IT之家（博客/媒体）

上海市人民政府办公厅印发《上海市服务业发展“十五五”规划》，明确提出支持多模态智能体开发与应用，推动智能客服、智能运营等工具规模化。规划还强调有序推进智能驾驶在共享出行、物流运输等多场景应用，并聚焦AI软件技术、具身智能、智算云服务等领域。该规划旨在到2030年服务业增加值达6万亿元，打造全球服务资源配置枢纽。对AI从业者和企业而言，这意味着上海将提供政策支持和场景落地机会。

行业智能体多模态智能驾驶上海政策服务业规划

推荐理由：上海明确将多模态智能体和智能驾驶列为重点方向，做AI应用和自动驾驶的团队可以提前布局政策红利场景。

原文

5月29日

09:07

09:07IT之家（博客/媒体）

精选76°

阶跃星辰今日发布并开源 Step 3.7 Flash，这是一款面向 Agent 生产化阶段的新一代 Flash 模型。该模型采用稀疏 MoE 架构，总参数 196B，激活参数 11B，最高生成速度达 400 Tokens/s，适合高频、多轮、低等待的 Agent 应用。Step 3.7 Flash 具备原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排等能力，并针对主流 Agent 框架和 MCP 协议进行了兼容优化。开源链接包括 Model Page、GitHub、Huggingface 和 Modelscope，国内海外平台均提供 API 接入。

AI模型阶跃星辰 Step 3.7 Flash 开源/仓库 Agent/智能体多模态

推荐理由：做 Agent 开发的团队终于有了一个原生优化、速度极快的开源模型——Step 3.7 Flash 直接兼容 Claude Code、MCP 等主流框架，接入成本低，值得立刻试跑。

原文

5月26日

16:35

marktechpost@Sana Hassan

本文是一篇技术教程，详细介绍了如何使用 TuringEnterprises/Open-MM-RL 数据集构建完整的多模态强化学习与可验证奖励（RLVR）管线。教程涵盖数据集加载、模式检查、领域分析、问题长度与答案类型统计、图像分布可视化等预处理步骤。还构建了轻量级奖励函数，支持精确匹配与语义评分，并演示了 GRPO 导出流程。该管线为多模态推理任务提供了可复现的实践框架，适合研究者和开发者快速上手。

论文多模态强化学习 RLVR GRPO Open-MM-RL

推荐理由：多模态 RLVR 是当前强化学习与视觉语言结合的热点方向，这篇教程从数据集到奖励函数再到导出一步到位，做多模态推理或 RL 研究的团队可以直接照着搭，省去自己踩坑的时间。

原文

5月25日

10:16

Pandaily@contact@pandaily.com (Pandaily)

精选

字节跳动开源了原生多模态模型Lance，可在40GB显存上本地运行。该模型发布一天内登上了Hugging Face趋势榜。Lance支持图像、文本等多种模态的联合理解与生成。

AI模型 Lance ByteDance 多模态开源模型本地部署

推荐理由：字节开源40GB可跑的多模态模型

原文

5月21日

15:14

marktechpost@Asif Razzaq

精选

字节跳动智能创作实验室推出Lance，一个原生统一多模态模型，仅用3B激活参数即可处理图像与视频的理解、生成和编辑。Lance在图像理解基准MSCOCO上达到44.8的BLEU-4，在视频生成测试集UCF-101上取得FVD 159.3。该模型支持文本到图像、文本到视频、图像编辑、视频编辑等多种任务。Lance以Apache 2.0许可证开源，代码和权重已在GitHub发布。

AI模型 Lance ByteDance 多模态视频生成开源模型

推荐理由：3B参数打通图视频理解生成

原文

08:00

08:00IT之家（博客/媒体）

83°

谷歌在 2026 I/O 开发者大会上宣布，Gemini 3.5 Pro 模型将于下月正式发布。目前该模型已在谷歌内部使用，官方称其进步非常强，但未透露具体细节。这一消息表明谷歌在 AI 模型迭代上持续加速，Gemini 3.5 Pro 有望在性能、多模态或推理能力上带来显著提升，值得开发者和 AI 从业者关注。

AI模型 Gemini 3.5 Pro 谷歌推理模型多模态 AI 模型发布

推荐理由：谷歌 Gemini 系列模型迭代节奏加快，3.5 Pro 内部使用已获「进步超强」评价，做多模态或推理应用的开发者值得提前关注，下月发布后可直接上手体验。

原文

5月20日

03:48

03:48Google Blog: AI（博客/媒体）

72°

Google 在 Search IO 2026 上宣布了搜索引擎与AI深度融合的新阶段，将传统搜索的精准性与AI的生成能力结合。新功能包括更智能的对话式搜索、多模态理解（图片、视频、文本混合查询）以及个性化结果生成。这一更新旨在提升用户获取信息的效率，同时保持搜索结果的可靠性。Google 强调，AI 不会取代搜索，而是增强其能力，让用户能更自然地探索复杂问题。

AI产品 AI搜索 Google 搜索引擎多模态对话式AI

推荐理由：Google 把搜索引擎和AI生成能力真正打通了，做搜索优化或内容运营的团队值得关注——这可能会改变用户获取信息的方式，建议点开看看具体怎么落地。

原文

02:11

02:11IT之家（博客/媒体）

76°

谷歌在 2026 I/O 大会上宣布搜索业务迎来 25 年来最大改版，核心是用 AI 全面重塑搜索入口与交互方式。用户从“输关键词”转向“描述完整需求”，由 Gemini 3.5 Flash 模型提供快速响应。新版搜索支持多模态输入（文本、图片、视频、文件等），AI Overview 支持连续追问，形成聊天式交互。此外，谷歌计划推出 24 小时后台运行的搜索智能体，可追踪公寓、球鞋发售等目标，并在夏季上线。个人智能功能扩展到 98 种语言、近 200 个国家，可连接 Gmail、Google Photos 等个人数据。

AI产品谷歌搜索 AI 搜索 Gemini 3.5 Flash 搜索智能体多模态

推荐理由：谷歌搜索这次改版彻底改变了搜索方式，从关键词到完整需求，做内容、做运营、做产品的团队都该关注——搜索流量和用户行为即将发生根本变化，建议尽早了解并调整策略。

原文

5月19日

08:33

08:33IT之家（博客/媒体）

72°

AI模型千问 Qwen3.7 Arena AI 多模态推理模型

推荐理由：千问新模型在数学和编程榜单上冲进前十，做技术选型或对比评测的开发者值得关注，可以直接去 Arena AI 体验。

原文

5月13日

13:05

13:05IT之家（博客/媒体）

精选70°

面壁智能联合清华大学及 OpenBMB 开源社区发布 MiniCPM-V 4.6，参数规模 1.3B，仅需约 6GB 内存即可在端侧流畅运行。该模型在 Artificial Analysis 评测中以 13 分超越 Ministral 3 3B，整体能力接近 Qwen3.5-2B 级别。效率方面，基于 vLLM 框架的 Token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍，计算 Token 消耗仅为后者的 2.5%。技术创新包括 LLaMA-UHD v4 架构，将图像编码计算量降低 55.8%，处理 3132×3132 高清图首字延迟仅 75.7 毫秒。模型已全面开源，支持 iOS、Android 和 HarmonyOS 等系统。

AI模型大模型多模态开源/仓库 MiniCPM-V 面壁智能

推荐理由：1.3B模型6G内存就能跑

原文

10:25

10:25IT之家（博客/媒体）

索尼发布 Xperia 1 Ⅷ 旗舰手机，搭载高通骁龙 8 Elite Gen 5 芯片和 5000mAh 电池。相机系统升级显著，长焦传感器尺寸比前代大四倍，采用固定 70mm 等效焦距和 48MP 分辨率。新机引入 RAW 多帧合成和 AI 相机助理功能，并保留 3.5mm 耳机孔和 microSD 卡槽。欧洲起售价 1499 欧元，北美市场缺席。

AI产品 AI相机助理多模态大模型骁龙8 Elite Gen 5 Xperia

推荐理由：Xperia 1 Ⅷ 在影像硬件和 AI 功能上大幅升级，长焦传感器尺寸提升四倍，结合 RAW 多帧合成和 AI 场景分析，对摄影爱好者有吸引力。

原文

00:33

00:33Google Developers Blog（博客/媒体）

Google DeepMind推出Gemma 4系列开源模型，专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”，以及LiteRT-LM库，提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可，支持140多种语言，兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。

AI模型智能体 Gemma 4 边缘计算开源/仓库多模态

推荐理由：此发布将前沿的智能体能力带入低功耗设备，为边缘AI应用（如本地化助手和离线自动化）提供了新的可能性，对开发者社区和物联网领域具有实际参考价值。

原文

00:33

00:33Google Developers Blog（博客/媒体）

70°

Google Cloud AI Agent Bake-Off强调从提示工程转向严格的智能体工程，生产级AI需模块化、多智能体架构。文章提出五条关键建议：将复杂任务分解为专用子智能体，用确定性代码执行避免概率性错误，优先支持多模态和开源协议（如MCP），确保智能体可扩展、可集成，适应模型快速演进。

AI产品智能体 MCP/工具架构设计多模态生产部署

推荐理由：这些技巧直接来自Google Cloud的实战经验，为开发者构建可靠、可维护的AI智能体提供了具体方法论，对行业从原型到落地的工程实践有重要参考价值。

原文

00:33

00:33Google Developers Blog（博客/媒体）

70°

Google 宣布 Gemini Embedding 2 正式可用，该模型能将文本、图像、视频、音频和文档映射到统一的语义空间，支持在单一请求中处理交错的多模态输入。它显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能，支持超过 100 种语言，并提供任务特定前缀和 Matryoshka 维度缩减等功能。这使得构建复杂 AI 代理更加高效和精准。

AI模型 Gemini Embedding 2 多模态智能体向量嵌入 RAG

推荐理由：对需要跨模态语义搜索和智能体构建的开发者而言，Gemini Embedding 2 的统一嵌入能力可简化架构并提升检索质量，值得关注其在实际部署中的表现。

原文