13:55Geek@geekbb精选百度开源了一个基于DeepSeek-OCR升级的视觉语言模型OCR项目,支持一次性解析超长文档。该模型提供两种推理模式:gundam模式用于处理单张图片中的密集文字,base模式适用于多页文档或PDF。项目代码已在GitHub上发布,允许开发者直接使用。AI模型百度DeepSeek-OCR视觉语言模型OCR开源模型推荐理由:百度开源的OCR模型,在DeepSeek-OCR上做了升级,能一次性处理超长文档和密集文字,两种模式很实用。原文
12:49Fireworks AI@FireworksAI_HQ精选72°Step 3.7 Flash 是阶跃星辰(StepFun)发布的 198B 稀疏 MoE 视觉语言模型,专为推理效率从头设计。该模型包含 196B 语言骨干和 1.8B 视觉编码器,支持原生多模态理解和行动,可靠工具使用,以及增强的网页和视觉搜索。在真实智能体工作负载下,推理速度可达 400 tok/sec,并采用 Apache 2.0 开源许可。Fireworks AI 已提供在线试用。AI模型视觉语言模型稀疏MoE推理效率智能体StepFun1 个信源在谈推荐理由:多数实验室事后才考虑推理效率,而 Step 3.7 Flash 从设计之初就为推理优化,做智能体应用和视觉语言模型的开发者可以直接试用,感受 400 tok/sec 的流畅体验。原文
16:00berryxia@berryxia腾讯团队开源了Chronicles-OCR,一个专门用于评估VLLM对古汉字感知能力的基准数据集。该数据集覆盖从甲骨文到草书的3000年演变,包含7种历史字体、2800张来自真实载体的平衡图像。测试任务包括字符定位、细粒度识别、古文字解析和字体分类。结果显示,随着视觉分布的时间漂移,大多数模型的感知能力显著下降。这一工作将AI视觉能力与文化传承紧密结合,为古代历史研究提供了新的工具。论文古文字识别OCR视觉语言模型文化遗产腾讯推荐理由:古文字识别是AI视觉的硬核边界,做OCR或文化遗产数字化的团队可以直接用这个基准测试自家模型,看看它们穿越回3000年前还能不能认出字。原文