14:35
arXiv cs.AI@Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang Lance 是一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。它不依赖模型规模扩展或文本-图像主导设计,而是通过协作式多任务训练探索统一多模态建模的实用范式。核心包括统一上下文建模和解耦能力路径,采用双流混合专家架构在共享交错多模态序列上联合学习,同时分离理解与生成路径。实验表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强多模态理解能力。
推荐理由:Lance 用轻量级架构实现了多模态理解与生成的统一,做多模态研究的开发者可以直接参考其双流 MoE 设计,值得关注。