AI产品精选72°

SGLang 支持百度无限 OCR,采用 R-SWA 注意力保持 KV 缓存恒定

🚀 SGLang now supports Unlimited OCR from @Baidu_In…

精选理由

SGLang 新功能无限 OCR 能一口气处理几十页文档,显存占用不变,比传统注意力省资源,适合长文档批量 OCR 场景。

AI 摘要

SGLang 集成百度无限 OCR 功能,通过参考滑动窗口注意力(R-SWA)替换传统解码注意力,使 KV 缓存大小在整个解码过程中保持恒定。该方案在单次前向传播中可处理最长 32K token 的文本,转录数十页文档。其高压缩率来自 DeepSeek OCR 编码器,且 R-SWA 方法可扩展至 ASR、翻译等任务。

AI 翻译 · 中文

SGLang 集成百度无限 OCR 功能,通过参考滑动窗口注意力(R-SWA)替换传统解码注意力,使 KV 缓存大小在整个解码过程中保持恒定。该方案在单次前向传播中可处理最长 32K token 的文本,转录数十页文档。其高压缩率来自 DeepSeek OCR 编码器,且 R-SWA 方法可扩展至 ASR、翻译等任务。

LMSYS Org (SGLang)🚀 SGLang now supports Unlimited OCR from @Baidu_Inc Unlimited OCR replaces decoder attention with Reference Sliding Window Attention (R-SWA), keeping KV cache constant throughout decoding. ✅Transcribe dozens of pages i