人类视觉对齐的甜点：生成式与判别式学习的平衡

精选理由

这项研究解决了计算机视觉中一个长期争论：人类视觉更接近生成式还是判别式模型？答案是两者平衡。对视觉AI研究者和模型设计者来说，这是一个值得关注的结论，建议在模型训练中尝试混合目标。

AI 摘要

一项新研究通过联合能量模型（JEM）在固定架构中连续插值判别式和生成式训练，发现人类视觉对齐在两者之间的中间点达到最优，而非任一极端。研究在六个基准测试（包括感知相似性、光泽感知、人类响应不确定性、鲁棒性、形状-纹理冲突和诊断特征归因）上验证了这一结论。混合JEM结合了判别式学习的类别结构和生成式学习对输入结构的敏感性，产生了更接近人类视觉的行为。这表明，理解人类视觉对齐的关键不是选择哪种学习目标，而是平衡两者。

AI 翻译 · 中文

arXiv cs.AIA central question in computational vision is whether human-like visual representations are better explained by discriminative or generative learning. Existing comparisons, however, often confound the learning objective …

阅读原文