13:17arXiv cs.AI@Sara Dorfman, Maya Vishnevsky, Omer Dahary, Or Patashnik, Daniel Cohen-Or该论文提出一种名为Semantic Browsing的方法,解决文本到图像模型生成样本多样性不足的问题。传统方法依赖随机噪声产生无意义变化,而Semantic Browsing通过Vision Language Model(VLM)在文本层面施加结构化语义变异。用户可沿可解释的语义轴(如物体属性、场景布局)导航图像集,每个变体对应一个具体可理解的语义决策。实验表明该方法能生成多样且可浏览的设计空间。论文Semantic Browsing文本到图像Vision Language Model图像生成多样性推荐理由:想要生成同一主题下不同设计的图像?这篇论文教你用VLM在文本层面控制多样性,比随机抽噪声靠谱多了。原文