精选理由
百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。
百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。
AI 翻译 · 中文
百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。
百度开源的视觉语言模型 OCR 项目,在 DeepSeek-OCR 基础上做了升级,主打一次性解析超长文档。模型有两种推理模式:gundam 模式用来对付单张图里的密集文字,base 模式处理多页或 PDF。 github.com/baidu/Unlimite… 💬 1 🔄 1 ❤️ 19 👀 4103 📊 8 ⚡ Powered by xgo.ing