百度Unlimited OCR：固定128 token缓存实现超长文档解析

精选理由

百度开源了一个超聪明的OCR方案，用固定128 token缓存模拟人眼抄书，长文档不爆内存，快去试试！

AI 摘要

百度发布Unlimited OCR，模拟人类抄书注意力模式，每生成一个token时参考完整图像和提示词，但输出侧仅回看前128个token。KV缓存固定为128长度，避免长文档推理时内存爆炸。在超长文档OCR任务上效果显著，已在GitHub和Hugging Face开源。

AI 翻译 · 中文

向阳乔木主流OCR解析方案是把多页文档切成一页一页，每页单独跑一次推理，最后把结果拼起来。每处理一页，模型记忆清空一次。为啥？因注意力机制问题，输出越长，KV缓存越大，内存吃不消。对比人类抄书，眼睛只盯三个地方：原书全文、刚写下的几行、下一个要写的字。人只需最近的上下文，就能在低认知负荷下完成超长任务。百度这个 Unlimited OCR，就想模拟人类抄书的注意力模式。每生成一个 token，模型都会看完整的「参考 token」，也…

berryxia06-22 16:47原文
小互06-24 03:54原文
Jerry Liu06-24 23:24原文
arXiv: DeepSeek06-22 09:01原文
Pandaily06-23 08:15原文
AK06-23 18:25原文

查看原推