多模态模型

§ 01综述

多模态模型正从实验室快速走向应用，各厂商密集发布支持文本、图像、视频乃至代码推理的新模型，并探索更自然的实时交互与终端部署。

MiniMax 推出 M3 模型，主打长上下文和多模态推理，能同时处理文本、图像和视频，拓展了复杂场景下的理解能力 (MiniMax M3 发布：长上下文多模态模型，支持文本/图像/视频推理)。

商汤开源 SenseNova U1 图文交错增强版，支持多页连续创作，强化了多模态内容的生成连贯性 (商汤开源 SenseNova U1 图文交错增强版模型，支持多页连续创作)。

Thinky 发布全双工多模态模型，实现自然实时交互，向类人对话迈出一步 (Thinky 发布全双工多模态模型，实现自然实时交互)。

小米开源 MiMo Code V0.1，专注终端 AI 编程助手，探索模型在本地设备上的轻量化运行 (小米 MiMo Code V0.1 开源发布，终端 AI 编程助手)。

微软、谷歌和腾讯也密集更新：微软发布 7 个新模型覆盖推理与代码；谷歌推出 Gemma 4 12B 可在笔记本本地运行多模态任务；腾讯混元开源 UniRL 统一强化学习框架以提升多模态训练效率 (微软AI实验室发布7个新模型, 谷歌发布 Gemma 4 12B, 腾讯混元开源UniRL)。

当前焦点在于两个方向：一是从感官融合（文本+图像+视频）到实时交互（全双工），二是从云端大模型向终端轻量化迁移。未来值得观察：厂商能否在开放权重与闭源之间找到平衡，以及端侧模型是否能在复杂推理任务上取得突破。

§ 02相关报道10 条在档

§ 03邻近话题