SACE:视觉自回归模型中的语义奇异性概念擦除

SACE: Concept Erasure at the Semantic Singularity in Visual Autoregressive Models

精选理由

这篇论文解决了VAR模型的安全对齐难题,发现只需在生成的第一阶段做干预就能擦除指定概念,比扩散模型方法更高效。代码已开源,可快速应用。

AI 摘要

该论文针对视觉自回归(VAR)模型提出语义奇异性公理,认为目标语义概念在Scale-0阶段被锁定。通过增量语义显著性分析(ISSA)验证该公理,并首次提出尺度感知的概念擦除框架(SACE)。SACE仅在第一尺度进行干预,结合熵正则化擦除目标和恢复性损失,防止高熵采样退化并保持良性先验完整性。实验表明该方法在多个领域实现精准概念擦除,训练开销极小。

AI 翻译 · 中文

该论文针对视觉自回归(VAR)模型提出语义奇异性公理,认为目标语义概念在Scale-0阶段被锁定。通过增量语义显著性分析(ISSA)验证该公理,并首次提出尺度感知的概念擦除框架(SACE)。SACE仅在第一尺度进行干预,结合熵正则化擦除目标和恢复性损失,防止高熵采样退化并保持良性先验完整性。实验表明该方法在多个领域实现精准概念擦除,训练开销极小。

arXiv cs.AIThe rapid progress of visual autoregressive (VAR) models has unlocked a transformative frontier for high-fidelity text-to-image synthesis, while heightening concerns over the safety alignment of generated content. Naive