19:54Geek@geekbb该项目将基金经理郑希过去十几年的季报、手记、采访等资料整理为结构化语料库。基于该语料库构建的AI技能可进行可溯源的投研问答与基金分析,避免模型幻觉。已开源在GitHub(lyra81604/zhen…),支持用户直接使用。技巧郑希基金经理语料库AI技能基金分析推荐理由:有人把郑希十几年的所有公开资料整理成了结构化语料,让AI能基于真实文本做投研问答,不是瞎编的,想搞基金分析的可以看看。原文
11:54arXiv: DeepSeek@Ifeoluwa Kunle-John, Josiah Paul, Oluwatosin Agbaakin, Peter Aina, Ikenna Odezuligbo, Sydney Anuyah因果抽取是生物医学文本挖掘的核心任务,但现有资源常混淆因果与关联、局限于句子级标注或仅关注显式因果线索。PubMedCausal 是一个基于 PubMed 摘要构建的跨度级标注语料库,包含 3 万段落级样本、3945 条因果行和 6491 个因果对,标注了完整因果跨度、类型及句子属性。基准测试显示,生物医学编码器 PubMedBERT 在因果检测上 F1 达 0.7391,而 DeepSeek-R1-32B 在跨度级抽取上 F1 为 0.6765。该语料库支持跨数据集评估,并揭示了类别不平衡、长因果跨度、隐式因果等挑战。论文因果抽取生物医学语料库PubMed跨度级标注推荐理由:做生物医学文本挖掘或因果推理的团队终于有了一个高质量、细粒度的标注资源,可以直接用来训练和评估模型,建议点开看看数据细节。原文