百度Unlimited-OCR现通过vLLM支持，采用R-SWA实现整书单次解析

精选理由

百度开源了Unlimited-OCR，在vLLM上跑，能一次性解析整本书，内存不涨，比DeepSeek-OCR快35%，做文档OCR的好东西。

AI 摘要

百度Unlimited-OCR现已集成到vLLM推理框架中，基于Reference Sliding Window Attention（R-SWA）机制实现恒定KV缓存，避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档，且编辑距离极低。在6K输出token场景下，推理速度比DeepSeek-OCR快35%，GPU内存和吞吐量保持恒定。

AI 翻译 · 中文

vLLM🎉 Unlimited-OCR from @Baidu_Inc now runs in vLLM. One-shot parsing of entire books with constant KV cache, powered by Reference Sliding Window Attention (R-SWA). 🧠 R-SWA keeps KV cache fixed throughout decoding — no me…

AK06-28 18:37原文

查看原推