12:05
12:05
arXiv: DeepSeek@Youyang Yin, Huanhuan Liu, YY, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia Unlimited OCR 模型以 DeepSeek OCR 为基线,将所有解码器注意力层替换为 Reference Sliding Window Attention (R-SWA),使解码过程中 KV 缓存保持恒定,不再随输出长度增长。在标准最大长度 32K 下,Unlimited OCR 可一次性转录数十页文档。相比传统端到端 OCR 模型,Unlimited OCR 解决了长序列中内存和速度下降的问题。R-SWA 是一种通用解析注意力机制,还可应用于 ASR、翻译等任务。代码和权重已在 GitHub 开源。
推荐理由:百度新出的 Unlimted OCR 用了一种叫 R-SWA 的注意力机制,让它处理几十页文档时不会变慢,内存占用也恒定。想做长文档 OCR 的可以试试。
11:03
11:03
arXiv cs.AI@Yikun Fu, Bowen Fu, Zhenyu Wu, Shuang Cheng, Xiaowei Sun, Bowen Yang, Zehao Li, Yibo Zhao, Zichen Ding, Zhoumianze Liu, Shijie Wang, Biqing Qi, Bowen Zhou MacAgentBench新基准包含676个任务覆盖25个macOS应用,近60%任务需要同时操作GUI和命令行。采用确定性规则评估并引入细粒度多检查点评分。实验在3个框架和16个模型上进行,最优配置Claude Opus 4.6 on OpenClaw达到73.7% Pass@1,优势主要来自技能库而非框架设计。细粒度指标显示相同Pass@1的模型在子目标完成上差异显著。
推荐理由:这篇论文发布了MacAgentBench,一个包含676个macOS桌面任务的智能体基准。它用细粒度评分发现Claude Opus 4.6配合OpenClaw能拿到73.7%的正确率,而且不同模型表面分一样但实际完成能力差很多,值得研究智能体的去看。
10:52
10:52
arXiv cs.AI@Hongqiao Dong, Wenhao Chi, Ruobing Liang, Xiaokui Yang, Wenhua Liang, Peng Hou, Wenjun Pu, Yipeng Zhao, Ping Chen, Haiping Liu, Jianxing He, Bo Liu Hi-Seg是一种基于SAM的人机循环分割框架,用于肺结节CT图像分割。研究使用了来自12个中心1179名患者的胸部CT扫描进行外部验证。所有标注者组平均Dice得分接近85%,优于5个最先进的深度学习模型(10-22%)和13个SAM变体(1-29%)。经过短期训练的非医学标注者达到了与初级医学生相当的性能。该工作表明人机循环分割可减少临床医生工作量并实现可扩展的众包标注。
推荐理由:这篇论文用SAM加人工迭代的方法做肺结节分割,Dice近85%,比13种SAM变体都强,非医学人员培训后也能干医学标注的活。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。