11:11arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang该研究提出一种无需渲染的框架,通过将3D人体网格压缩为token,直接输入DiT架构的视频扩散模型,实现精确的人体运动控制。相比依赖2D渲染引导的现有方法,该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明,该框架在人体运动控制基准上表现优异,证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。论文视频生成3D人体运动控制网格token化扩散模型DiT架构推荐理由:做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token,避免2D引导的伪影问题,建议做运动控制或虚拟人应用的开发者点开看看。原文