PubMedCausal：面向生物医学文本因果抽取的跨度级标注语料库

精选理由

做生物医学文本挖掘或因果推理的团队终于有了一个高质量、细粒度的标注资源，可以直接用来训练和评估模型，建议点开看看数据细节。

AI 摘要

因果抽取是生物医学文本挖掘的核心任务，但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库，包含 3 万段落级样本、3945 条因果行和 6491 个因果对，标注了完整因果跨度、类型及句子属性。基准测试显示，生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391，而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估，并揭示了类别不平衡、长因果跨度、隐式因果等挑战。

AI 翻译 · 中文

arXiv: DeepSeekCausal relation extraction (CRE) is central to biomedical text mining, but current resources often conflate causal relations with broader associations, restrict annotation to sentence-level examples, or focus mainly on e…

阅读原文