精选理由
Lance用3B参数实现了多模态理解与生成的统一,解决了传统方案模块拼接效率低、能力割裂的问题。做多模态AI研究或应用开发的团队可以直接下载权重试试,尤其适合资源有限但想探索统一模型的场景。
字节跳动开源了名为Lance的多模态AI模型,激活参数量仅3B,却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同,Lance从训练起就采用共享上下文与能力解耦的双流专家架构,兼顾高层语义特征与低层连续表示。在多项基准测试中,Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩,例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源,权重已在Hugging Face提供,推理需至少40GB显存。
AI 翻译 · 中文
字节跳动开源了名为Lance的多模态AI模型,激活参数量仅3B,却能原生统一处理图像理解、视频理解、图像生成、视频生成和跨模态编辑等任务。与常见将理解与生成拆分为多个模块的方案不同,Lance从训练起就采用共享上下文与能力解耦的双流专家架构,兼顾高层语义特征与低层连续表示。在多项基准测试中,Lance在图像生成、视频生成、图像编辑和视频理解上均取得领先成绩,例如GenEval总分0.90、VBench总分85.11。模型采用Apache 2.0许可开源,权重已在Hugging Face提供,推理需至少40GB显存。
IT之家 5 月 22 日消息,字节跳动最新发布开源多模态模型 Lance,激活参数量只有 3B,是一款原生统一的图像、视频多模态模型。 与把“理解”和“生成”拆成多个模块再拼接的常见方案不同, Lance 从训练起就把图像理解、视频理解、图像生成、视频生成和跨模态编辑放进同一体系,目标是让 1 个模型同时处理 X2T、X2I、X2V 3 类输出任务。 IT之家援引论文内容,理解任务依赖与语言对齐紧密的高层语义特征;生成任务则需要保留纹…