精选理由
数字人视频生成终于从演示走向了可商用——10 秒视频 1 分钟生成,效率提升 15 倍,做虚拟主播、在线教育、客服视频的团队可以直接拿来用,省去大量渲染时间。
美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。美团表示,数字人视频生成正从展示效果走向真实使用,希望开源能成为可验证、可改进、可共建的技术基座。
AI 翻译 · 中文
美团技术团队正式开源了数字人视频生成模型 LongCat-Video-Avatar 1.5,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级。模型采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成 10 秒视频仅需约 1 分钟。在用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。美团表示,数字人视频生成正从展示效果走向真实使用,希望开源能成为可验证、可改进、可共建的技术基座。
IT之家 5 月 22 日消息,美团技术团队今日正式开源了其数字人视频生成模型 LongCat-Video-Avatar 1.5。 官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现了升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在 1.0 版本的基础上完成全面升级,定位从“开源 SOTA”走向“商业级应用”。 据介绍,这一版本在基础体验上进行了强化,能够应对长句、快语速、歌…