多模态 AI 近期呈现模型高效化与场景纵深化的双重趋势。阶跃星辰推出的 Step 3.7 Flash 采用 196B 总参数、11B 活跃参数的 MoE 架构,在保证推理质量的同时将生成速度提升至 400 Tokens/s,专为智能体与编码场景设计,已在 OpenRouter 上线并开源(StepFun发布Step 3.7 Flash专属高效模型、阶跃星辰开源Step 3.7 Flash模型)。NVIDIA 同步发布了该模型的 198B 版本,支持 256K 上下文,进一步强化了长序列处理能力(NVIDIA发布Step 3.7 Flash)。
在学术前沿,多模态研究开始聚焦机器人感知与数字人生成。DynaFLIP 提出三模态动力学引导的预训练框架,利用视觉、语言与触觉的协同学习提升机器人操作能力(DynaFLIP三模态机器人感知)。Archon 模型则实现了统一的多模态数字人生成,从语音、文本到面部动画的端到端合成(Archon:统一多模态数字人)。此外,Agent Explorative Policy Optimization 方法通过探索式强化学习增强了多模态智能体在复杂环境中的推理与决策(AEPO提升多模态智能体)。
当前焦点在于:如何在保持多模态理解深度(如长上下文、细粒度细节)的同时,实现模型的轻量化与高实时性,以支持智能体、编码等场景。此外,三模态甚至更多模态的融合(如触觉、动力学)正成为研究热点,但后验采样的失败案例提示需警惕模型在分布外场景的鲁棒性问题(扩散后验采样为何失败)。苹果在CVPR展示的14篇AI论文或预示其2026年开发者大会上将有更多多模态端侧应用落地(苹果CVPR展示多模态论文)。