ProductConsistency:利用SFT与RL增强产品身份保持的图像编辑

ProductConsistency: Improving Product Identity Preservation in Instruction-Based Image Editing via SFT and RL

精选理由

这篇论文搞了一个新数据集和训练方法,能让AI改产品图时更准地保留品牌和文字,Qwen的错字率降到原来的五分之一,做电商图片编辑的可以看看。

AI 摘要

当前指令式图像编辑模型在处理产品图片时,难以保持品牌标识和文字细节。该工作构建了包含87k SFT样本和869张产品图像的RL数据集,并提出Cyclic Consistency奖励来强制产品身份语义保持。在Qwen-Image-Edit-2511和Flux.1-Kontext-dev上微调后,模型在OCR和感知指标上取得一致提升,其中Qwen模型字符错误率降低5倍。研究还发布了ProductConsistency Benchmark用于标准化评估。

AI 翻译 · 中文

当前指令式图像编辑模型在处理产品图片时,难以保持品牌标识和文字细节。该工作构建了包含87k SFT样本和869张产品图像的RL数据集,并提出Cyclic Consistency奖励来强制产品身份语义保持。在Qwen-Image-Edit-2511和Flux.1-Kontext-dev上微调后,模型在OCR和感知指标上取得一致提升,其中Qwen模型字符错误率降低5倍。研究还发布了ProductConsistency Benchmark用于标准化评估。

arXiv cs.AIRecent advances in instruction-based image editing have enabled models to perform complex visual edits from natural language instructions. However, in product-centric scenarios where preserving product features, branding