Shell-LCC: 数据流形隐式作为奖励模型用于文本到视频生成

Your Data Manifold is Secretly a Reward Model: Shell-LCC for Text-to-Video Generation

精选理由

这篇论文发现数据流形本身就是好奖励,提出Shell-LCC,不花啥钱就能让AI生成的视频更清晰、少模糊,比加奖励模型省事多了。

AI 摘要

文本到视频扩散模型通常依赖额外奖励信号(如奖励模型或DPO)对齐人类偏好,但计算成本高且需人工标注。本文提出数据流形本身可作为奖励模型,通过显式建模高质量SFT数据的流形结构获得密集、可微、近乎零成本的奖励信号。基于局部坐标编码(LCC)捕获流形骨架,但LCC存在均值回归问题导致丢失高频细节。为此提出Shell-LCC,建模流形表面为各向同性壳层以对齐真实高密度区域。实验表明Shell-LCC能提升真实感、增强高频细节、减少过平滑伪影并缓解运动模糊。

AI 翻译 · 中文

文本到视频扩散模型通常依赖额外奖励信号(如奖励模型或DPO)对齐人类偏好,但计算成本高且需人工标注。本文提出数据流形本身可作为奖励模型,通过显式建模高质量SFT数据的流形结构获得密集、可微、近乎零成本的奖励信号。基于局部坐标编码(LCC)捕获流形骨架,但LCC存在均值回归问题导致丢失高频细节。为此提出Shell-LCC,建模流形表面为各向同性壳层以对齐真实高密度区域。实验表明Shell-LCC能提升真实感、增强高频细节、减少过平滑伪影并缓解运动模糊。

arXiv cs.LGRecent text-to-video (T2V) diffusion models rely heavily on auxiliary reward signals (e.g., via reward models or DPO) to align generated content with human aesthetics and improve realism. These signals, however, incur su