ClaMPAPP混合系统:LLM作为接口、XGBoost作为预测器用于儿科阑尾炎诊断

Language Models as Interfaces, Not Oracles: A Hybrid LLM-ML System for Pediatric Appendicitis

精选理由

这篇论文提出了一个实用设计:用LLM理解病历文本,但把最终判断交给更可靠的机器学习模型,值得做临床AI的看看。

AI 摘要

ClaMPAPP系统将LLM用作特征提取接口,而非直接诊断引擎,对自由文本病历进行模式约束提取后经确定性检查,再输入XGBoost分类器。该系统在两个德国医院独立儿科阑尾炎队列上评估,性能优于端到端LLM基线(包括开源和专有模型)。在内部和外部验证中,ClaMPAPP实现了最强整体诊断性能,并最小化漏诊阑尾炎病例。端到端LLM在敏感度-特异度权衡和叙事重排下表现更不稳定。

AI 翻译 · 中文

ClaMPAPP系统将LLM用作特征提取接口,而非直接诊断引擎,对自由文本病历进行模式约束提取后经确定性检查,再输入XGBoost分类器。该系统在两个德国医院独立儿科阑尾炎队列上评估,性能优于端到端LLM基线(包括开源和专有模型)。在内部和外部验证中,ClaMPAPP实现了最强整体诊断性能,并最小化漏诊阑尾炎病例。端到端LLM在敏感度-特异度权衡和叙事重排下表现更不稳定。

arXiv cs.AILarge language models (LLMs) can make clinical decision support more accessible by interpreting free-text documentation, but their direct use as diagnostic engines is limited by sensitivity to prompts, information order,