Render-Free 3D人体运动控制:Mesh Tokenization 赋能视频扩散模型

Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization

精选理由

做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token,避免2D引导的伪影问题,建议做运动控制或虚拟人应用的开发者点开看看。

AI 摘要

该研究提出一种无需渲染的框架,通过将3D人体网格压缩为token,直接输入DiT架构的视频扩散模型,实现精确的人体运动控制。相比依赖2D渲染引导的现有方法,该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明,该框架在人体运动控制基准上表现优异,证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

AI 翻译 · 中文

该研究提出一种无需渲染的框架,通过将3D人体网格压缩为token,直接输入DiT架构的视频扩散模型,实现精确的人体运动控制。相比依赖2D渲染引导的现有方法,该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明,该框架在人体运动控制基准上表现优异,证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

arXiv cs.AIDiffusion models have shown remarkable success in video generation. However, whether such models are truly aware of the 3D structure underlying visual observations, rather than simply reproducing plausible 2D projections