Edges Before Embeddings：面向视觉语言管线的置信度感知模糊门控

精选理由

这论文搞了个超轻量的图像模糊检测模块，7毫秒就能判断，能帮下游视觉语言模型省掉很多无用计算。实测F1到0.98，模型才17MB，值得做生产管线的看看。

AI 摘要

论文提出MagikaDocumentFromPixel，一个轻量级CPU图像质量门，在单个CPU核上约7ms判断图像为清晰、模糊或不确定。基于46配置8扫描经验搜索，发现输入分辨率是主导杠杆。引入边缘先验模块(EPM)，通过拉普拉斯幅度辅助输入使F1提升1.3点。在GoPro Large帧上以384x384训练，F1达0.9803（AUC 0.9989），ONNX模型仅17 MB。局限性包括仅针对单一运动模糊分布和单次种子结果。

AI 翻译 · 中文

arXiv cs.AIProduction vision pipelines silently degrade on blurry input, wasting compute on downstream OCR, retrieval, and vision-language model (VLM) calls that cannot recover a usable output. We present MagikaDocumentFromPixel, a…

阅读原文