论文精选

Archon:统一多模态数字人生成模型

Archon: A Unified Multimodal Model for Holistic Digital Human Generation

精选理由

做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了,不用再拼凑多个模型,做沉浸式体验的开发者可以直接参考其架构。

AI 摘要

浙江大学团队提出 Archon,一个完全预训练的统一多模态模型,用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构,统一了七种模态,并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题,Archon 引入了一种内存高效的语义视频重参数化方法,实现 4 倍 token 压缩同时保留精细动态,并配合语义驱动的视频扩散解码器。此外,提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理,提升了生成保真度和可控性。实验表明,Archon 在多种数字人生成任务上达到或超越现有水平。

AI 翻译 · 中文

浙江大学团队提出 Archon,一个完全预训练的统一多模态模型,用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构,统一了七种模态,并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题,Archon 引入了一种内存高效的语义视频重参数化方法,实现 4 倍 token 压缩同时保留精细动态,并配合语义驱动的视频扩散解码器。此外,提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理,提升了生成保真度和可控性。实验表明,Archon 在多种数字人生成任务上达到或超越现有水平。

arXiv cs.AIDigital humans are fundamental to immersive interaction, yet creating a unified model for holistic modalities, including text, audio, motion, and visual content, remains an open challenge. In this paper, we present Archo