PubMedCausal:面向生物医学文本因果抽取的跨度级标注语料库

PubMedCausal: A Span-Level Annotated Corpus for Causal Relation Extraction in Biomedical Text

精选理由

做生物医学文本挖掘或因果推理的团队终于有了一个高质量、细粒度的标注资源,可以直接用来训练和评估模型,建议点开看看数据细节。

AI 摘要

因果抽取是生物医学文本挖掘的核心任务,但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库,包含 3 万段落级样本、3945 条因果行和 6491 个因果对,标注了完整因果跨度、类型及句子属性。基准测试显示,生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391,而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估,并揭示了类别不平衡、长因果跨度、隐式因果等挑战。

AI 翻译 · 中文

因果抽取是生物医学文本挖掘的核心任务,但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库,包含 3 万段落级样本、3945 条因果行和 6491 个因果对,标注了完整因果跨度、类型及句子属性。基准测试显示,生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391,而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估,并揭示了类别不平衡、长因果跨度、隐式因果等挑战。

arXiv: DeepSeekCausal relation extraction (CRE) is central to biomedical text mining, but current resources often conflate causal relations with broader associations, restrict annotation to sentence-level examples, or focus mainly on e