GPT-Image-2生成文本丰富图像检测的多领域基准

精选理由

想测你手上的AI图片检测器靠不靠谱？这个基准有8602张图、6种类型，还试了5种检测器，发现它们碰上有文字的图片（比如收据、海报）就露馅，连JPEG压缩都扛不住。

AI 摘要

该论文提出了一个多领域基准数据集，包含8602张图像，覆盖商业海报、信息图、学术海报、收据、表格和UI截图6个类别，用于检测OpenAI的GPT Image 2生成的文本丰富图像。在零样本设置下评估了5种AI生成图像检测器，发现性能高度依赖领域：在部分类别表现好的方法在其他类别失败，且最强传统检测器对JPEG压缩敏感。此外，多模态视觉语言模型的初步评估显示其在结构化格式上既有潜力也有局限。

AI 翻译 · 中文

arXiv: OpenAIText-rich images often contain privacy-sensitive, transactional, or decision-relevant information. As recent multimodal image generation models become increasingly capable of synthesizing realistic textual content and st…

OpenAI Blog06-16 00:00原文
Decoder06-17 14:30原文
orange.ai06-18 22:40原文
elvis06-19 15:04原文

阅读原文