精选理由
做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token,避免2D引导的伪影问题,建议做运动控制或虚拟人应用的开发者点开看看。
该研究提出一种无需渲染的框架,通过将3D人体网格压缩为token,直接输入DiT架构的视频扩散模型,实现精确的人体运动控制。相比依赖2D渲染引导的现有方法,该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明,该框架在人体运动控制基准上表现优异,证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。
AI 翻译 · 中文
该研究提出一种无需渲染的框架,通过将3D人体网格压缩为token,直接输入DiT架构的视频扩散模型,实现精确的人体运动控制。相比依赖2D渲染引导的现有方法,该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明,该框架在人体运动控制基准上表现优异,证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。
Diffusion models have shown remarkable success in video generation. However, whether such models are truly aware of the 3D structure underlying visual observations, rather than simply reproducing plausible 2D projections…