11:54arXiv: DeepSeek@Ifeoluwa Kunle-John, Josiah Paul, Oluwatosin Agbaakin, Peter Aina, Ikenna Odezuligbo, Sydney Anuyah因果抽取是生物医学文本挖掘的核心任务,但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库,包含 3 万段落级样本、3945 条因果行和 6491 个因果对,标注了完整因果跨度、类型及句子属性。基准测试显示,生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391,而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估,并揭示了类别不平衡、长因果跨度、隐式因果等挑战。论文因果抽取生物医学语料库PubMed跨度级标注推荐理由:做生物医学文本挖掘或因果推理的团队终于有了一个高质量、细粒度的标注资源,可以直接用来训练和评估模型,建议点开看看数据细节。原文