精选理由
百度开源了一个超聪明的OCR方案,用固定128 token缓存模拟人眼抄书,长文档不爆内存,快去试试!
百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。
AI 翻译 · 中文
百度发布Unlimited OCR,模拟人类抄书注意力模式,每生成一个token时参考完整图像和提示词,但输出侧仅回看前128个token。KV缓存固定为128长度,避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著,已在GitHub和Hugging Face开源。
主流OCR解析方案是把多页文档切成一页一页,每页单独跑一次推理,最后把结果拼起来。 每处理一页,模型记忆清空一次。 为啥?因注意力机制问题,输出越长,KV缓存越大,内存吃不消。 对比人类抄书,眼睛只盯三个地方:原书全文、刚写下的几行、下一个要写的字。 人只需最近的上下文,就能在低认知负荷下完成超长任务。 百度这个 Unlimited OCR,就想模拟人类抄书的注意力模式。 每生成一个 token,模型都会看完整的「参考 token」,也…