11:30arXiv cs.AI@Bushi Xiao, Sarvesh Soni, Daisy Zhe Wang精选大型语言模型在临床文本中部署时,可靠地表达自身不确定性至关重要。现有不确定性量化方法多针对开放域生成,无法在长临床文本中定位到token或片段级别。研究者提出Reverse Probing,首个专为临床摘要设计的不确定性量化框架,直接从已有标注摘要中估计token级不确定性,而非采样新输出。该方法将文本作为探针,从四种内部激活中提取不确定性信号,在两个专家标注的临床数据集上超越八种基线方法,AUPRC提升高达4倍,同时降低推理时间和计算成本。特征分析显示,delta能量和邻域上下文是所有模型中最一致的预测因子,为模型如何内部响应无支持的临床内容提供了可解释的洞见。论文不确定性量化临床文本大型语言模型Token级可解释性推荐理由:临床AI部署中,模型能否准确表达不确定性直接关系到患者安全——Reverse Probing让token级不确定性量化首次在临床摘要场景落地,做医疗NLP或AI安全的研究者值得关注。原文
09:46arXiv cs.AI@Fernando Ortega, Raúl Lara-Cabrera, Jorge Dueñas-Lerín, Alejandro de la Torre-Luque, Mercé Salvador Robert, Enrique Baca-García精选该研究利用自然语言处理与机器学习技术,将自由文本的精神科诊断描述自动映射到国际疾病分类(ICD)编码。研究基于14.5万条西班牙语精神科描述数据集,比较了从词袋模型、TF-IDF到大型语言模型(如e5_large、BioLORD、Llama-3-8B)等多种文本表示方法。结果显示,基于Transformer的嵌入方法在捕捉隐含语义和医学术语方面显著优于传统方法,其中e5_large模型通过端到端微调取得了0.866的F1_micro最高分。研究强调,将LLM适配到特定临床术语对于克服“长尾”标签分布和精神科话语的固有歧义至关重要。论文NLPICD编码精神科诊断大型语言模型临床文本推荐理由:精神科医生和医疗编码员每天面对大量诊断文本,这项研究展示了如何用LLM自动化ICD编码,大幅减轻行政负担。做医疗NLP或临床信息学的团队值得关注其方法。原文