AI模型精选

百度开源Unlimited OCR:3B参数MoE模型,KV缓存恒定解析长文档

Baidu Releases Unlimited OCR, a 3B Model That Keeps the KV Cache Flat for Long-Document Parsing

精选理由

百度开源了一个3B参数的OCR模型,能一口气解析几十页文档,KV缓存不膨胀,性能直接碾压DeepSeek。

AI 摘要

百度开源Unlimited OCR,一个3B参数的MoE模型,能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定,随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分,比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。

AI 翻译 · 中文

百度开源Unlimited OCR,一个3B参数的MoE模型,能在单次前向推理中解析数十页文档。其突破性的Reference Sliding Window Attention (R-SWA)机制使KV缓存保持恒定,随着输出增长内存和延迟不变。模型在OmniDocBench v1.5基准上获得93.23分,比DeepSeek OCR基线高出6.22分。该模型采用MIT许可证开源。

marktechpostBaidu open-sourced Unlimited OCR, a 3B-parameter MoE model that parses dozens of document pages in a single forward pass. Its Reference Sliding Window Attention (R-SWA) holds the KV cache constant, so memory and latency