统一模型 · AI 话题观测

§ 01综述

近年来，AI领域“统一模型”趋势显著，旨在将语言、视觉、语音、视频甚至具身行动等不同模态和任务整合进单一模型架构，以提升泛化能力和效率。近期进展呈现三大方向：

多模态理解与生成统一：字节跳动开源的Lance（3B参数）通过多任务协同训练，统一了文本、图像等模态的理解与生成能力，展示了轻量级模型在统一范式下的潜力。参考

视频与频率域桥接：Lumos-Nexus提出高效频率桥接方法，将视频模型与图像模型统一，实现视频理解与生成的协同优化。该工作关注频率域对齐，以解决视频时空建模的挑战。参考

具身智能统一：Pelican-Unified 1.0首次将理解、推理、想象与行动一体化，使机器人能够通过统一模型直接感知环境、规划动作并执行任务，标志着统一模型从数字世界迈向物理世界。参考

此外，STARFlow2通过自回归流统一多模态生成，进一步丰富了统一模型的理论框架。参考

当前焦点在于如何在保持模型性能的同时，实现真正的端到端统一，并突破不同模态（如时序与非时序、抽象与具身）之间的表示鸿沟。未来观察点包括：统一模型在实时交互场景中的部署效率，以及其能否替代专用模型成为通用AI基准架构。

§ 02相关报道05 条在档

§ 03邻近话题