AI模型精选

百度Unlimited-OCR现通过vLLM支持,采用R-SWA实现整书单次解析

🎉 Unlimited-OCR from @Baidu_Inc now runs in vLLM. …

精选理由

百度开源了Unlimited-OCR,在vLLM上跑,能一次性解析整本书,内存不涨,比DeepSeek-OCR快35%,做文档OCR的好东西。

AI 摘要

百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。

AI 翻译 · 中文

百度Unlimited-OCR现已集成到vLLM推理框架中,基于Reference Sliding Window Attention(R-SWA)机制实现恒定KV缓存,避免内存暴涨和速度下降。该模型能在32K上下文预算下一次性转录40+页文档,且编辑距离极低。在6K输出token场景下,推理速度比DeepSeek-OCR快35%,GPU内存和吞吐量保持恒定。

vLLM🎉 Unlimited-OCR from @Baidu_Inc now runs in vLLM. One-shot parsing of entire books with constant KV cache, powered by Reference Sliding Window Attention (R-SWA). 🧠 R-SWA keeps KV cache fixed throughout decoding — no me