多模态模型·general

多模态模型

别名
首次出现
2026-05-22
最近出现
2026-06-12
累计提及
50
§ 01综述

多模态模型正从实验室快速走向应用,各厂商密集发布支持文本、图像、视频乃至代码推理的新模型,并探索更自然的实时交互与终端部署。

  • MiniMax 推出 M3 模型,主打长上下文和多模态推理,能同时处理文本、图像和视频,拓展了复杂场景下的理解能力 (MiniMax M3 发布:长上下文多模态模型,支持文本/图像/视频推理)。
  • 商汤开源 SenseNova U1 图文交错增强版,支持多页连续创作,强化了多模态内容的生成连贯性 (商汤开源 SenseNova U1 图文交错增强版模型,支持多页连续创作)。
  • Thinky 发布全双工多模态模型,实现自然实时交互,向类人对话迈出一步 (Thinky 发布全双工多模态模型,实现自然实时交互)。
  • 小米开源 MiMo Code V0.1,专注终端 AI 编程助手,探索模型在本地设备上的轻量化运行 (小米 MiMo Code V0.1 开源发布,终端 AI 编程助手)。
  • 微软、谷歌和腾讯也密集更新:微软发布 7 个新模型覆盖推理与代码;谷歌推出 Gemma 4 12B 可在笔记本本地运行多模态任务;腾讯混元开源 UniRL 统一强化学习框架以提升多模态训练效率 (微软AI实验室发布7个新模型, 谷歌发布 Gemma 4 12B, 腾讯混元开源UniRL)。
  • 当前焦点在于两个方向:一是从感官融合(文本+图像+视频)到实时交互(全双工),二是从云端大模型向终端轻量化迁移。未来值得观察:厂商能否在开放权重与闭源之间找到平衡,以及端侧模型是否能在复杂推理任务上取得突破。

    § 02相关报道10 条在档
    1. 01
      MiniMax M3 发布:长上下文多模态模型,支持文本/图像/视频推理
      NVIDIA AI
    2. 02
      商汤开源 SenseNova U1 图文交错增强版模型,支持多页连续创作
      IT之家
    3. 03
      Thinky 发布全双工多模态模型,实现自然实时交互
      John Schulman
    4. 04
      小米 MiMo Code V0.1 开源发布,终端 AI 编程助手
      xiaomimimo
    5. 05
      微软AI实验室发布7个新模型,覆盖推理、代码、图像等
      Microsoft AI
    6. 06
      腾讯混元开源 UniRL:统一强化学习后训练框架
      Geek
    7. 07
      腾讯混元发布UniRL:统一多模态强化学习框架
      Hunyuan
    8. 08
      Topo-Omni:多模态深度地形模型发现脑区功能选择性
      arXiv cs.LG
    9. 09
      Google AI 本周发布:Nano Banana 2、Co-Scientist、Gemma 4 12B 等
      Google AI
    10. 10
      谷歌发布 Gemma 4 12B:笔记本本地运行的多模态模型
      AI Will
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/%E5%A4%9A%E6%A8%A1%E6%80%81%E6%A8%A1%E5%9E%8B