精选理由
这论文搞了个超轻量的图像模糊检测模块,7毫秒就能判断,能帮下游视觉语言模型省掉很多无用计算。实测F1到0.98,模型才17MB,值得做生产管线的看看。
论文提出MagikaDocumentFromPixel,一个轻量级CPU图像质量门,在单个CPU核上约7ms判断图像为清晰、模糊或不确定。基于46配置8扫描经验搜索,发现输入分辨率是主导杠杆。引入边缘先验模块(EPM),通过拉普拉斯幅度辅助输入使F1提升1.3点。在GoPro Large帧上以384x384训练,F1达0.9803(AUC 0.9989),ONNX模型仅17 MB。局限性包括仅针对单一运动模糊分布和单次种子结果。
AI 翻译 · 中文
论文提出MagikaDocumentFromPixel,一个轻量级CPU图像质量门,在单个CPU核上约7ms判断图像为清晰、模糊或不确定。基于46配置8扫描经验搜索,发现输入分辨率是主导杠杆。引入边缘先验模块(EPM),通过拉普拉斯幅度辅助输入使F1提升1.3点。在GoPro Large帧上以384x384训练,F1达0.9803(AUC 0.9989),ONNX模型仅17 MB。局限性包括仅针对单一运动模糊分布和单次种子结果。
Production vision pipelines silently degrade on blurry input, wasting compute on downstream OCR, retrieval, and vision-language model (VLM) calls that cannot recover a usable output. We present MagikaDocumentFromPixel, a…