SACE：视觉自回归模型中的语义奇异性概念擦除

精选理由

这篇论文解决了VAR模型的安全对齐难题，发现只需在生成的第一阶段做干预就能擦除指定概念，比扩散模型方法更高效。代码已开源，可快速应用。

AI 摘要

该论文针对视觉自回归(VAR)模型提出语义奇异性公理，认为目标语义概念在Scale-0阶段被锁定。通过增量语义显著性分析(ISSA)验证该公理，并首次提出尺度感知的概念擦除框架(SACE)。SACE仅在第一尺度进行干预，结合熵正则化擦除目标和恢复性损失，防止高熵采样退化并保持良性先验完整性。实验表明该方法在多个领域实现精准概念擦除，训练开销极小。

AI 翻译 · 中文

arXiv cs.AIThe rapid progress of visual autoregressive (VAR) models has unlocked a transformative frontier for high-fidelity text-to-image synthesis, while heightening concerns over the safety alignment of generated content. Naive …

阅读原文