多模态·general

多模态

别名
首次出现
2026-05-22
最近出现
2026-06-10
累计提及
259
§ 01综述

多模态 AI 近期呈现模型高效化与场景纵深化的双重趋势。阶跃星辰推出的 Step 3.7 Flash 采用 196B 总参数、11B 活跃参数的 MoE 架构,在保证推理质量的同时将生成速度提升至 400 Tokens/s,专为智能体与编码场景设计,已在 OpenRouter 上线并开源(StepFun发布Step 3.7 Flash专属高效模型阶跃星辰开源Step 3.7 Flash模型)。NVIDIA 同步发布了该模型的 198B 版本,支持 256K 上下文,进一步强化了长序列处理能力(NVIDIA发布Step 3.7 Flash)。

在学术前沿,多模态研究开始聚焦机器人感知与数字人生成。DynaFLIP 提出三模态动力学引导的预训练框架,利用视觉、语言与触觉的协同学习提升机器人操作能力(DynaFLIP三模态机器人感知)。Archon 模型则实现了统一的多模态数字人生成,从语音、文本到面部动画的端到端合成(Archon:统一多模态数字人)。此外,Agent Explorative Policy Optimization 方法通过探索式强化学习增强了多模态智能体在复杂环境中的推理与决策(AEPO提升多模态智能体)。

当前焦点在于:如何在保持多模态理解深度(如长上下文、细粒度细节)的同时,实现模型的轻量化与高实时性,以支持智能体、编码等场景。此外,三模态甚至更多模态的融合(如触觉、动力学)正成为研究热点,但后验采样的失败案例提示需警惕模型在分布外场景的鲁棒性问题(扩散后验采样为何失败)。苹果在CVPR展示的14篇AI论文或预示其2026年开发者大会上将有更多多模态端侧应用落地(苹果CVPR展示多模态论文)。

§ 02相关报道10 条在档
  1. 01
    Claude Fable 5 登陆 LMSYS 竞技场,支持文本/视觉/文档/代码评测
    lmarena.ai
  2. 02
    Anthropic 发布最强 AI 模型 Claude Fable
    PolymarketMoney
  3. 03
    腾讯混元开源UniRL:统一多模态强化学习框架
    Hunyuan
  4. 04
    腾讯混元发布UniRL:统一多模态强化学习框架
    Hunyuan
  5. 05
    Kwai Keye-VL-2.0:开源MoE多模态模型,支持256K长视频理解
    arXiv: DeepSeek
  6. 06
    Google 在 Gemini Live 中推出实时图像生成与编辑
    AI Will
  7. 07
    苹果回应Siri AI“套壳Gemini”猜测:AFM自研模型完全自主控制
    IT之家
  8. 08
    Xcode 27 Beta 发布:苹果称其是构建 AI 智能体应用的“最佳场所”
    IT之家
  9. 09
    Topo-Omni:多模态深度地形模型发现脑区功能选择性
    arXiv cs.LG
  10. 10
    SpatialWorld:多模态智能体交互式空间推理新基准
    arXiv cs.AI
§ 03邻近话题

本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

/topic/%E5%A4%9A%E6%A8%A1%E6%80%81