10:43arXiv cs.AI@Soheyl Bateni, Maryam AbdolaliClaMPAPP系统将LLM用作特征提取接口,而非直接诊断引擎,对自由文本病历进行模式约束提取后经确定性检查,再输入XGBoost分类器。该系统在两个德国医院独立儿科阑尾炎队列上评估,性能优于端到端LLM基线(包括开源和专有模型)。在内部和外部验证中,ClaMPAPP实现了最强整体诊断性能,并最小化漏诊阑尾炎病例。端到端LLM在敏感度-特异度权衡和叙事重排下表现更不稳定。论文ClaMPAPPLLMXGBoost儿科阑尾炎临床决策支持推荐理由:这篇论文提出了一个实用设计:用LLM理解病历文本,但把最终判断交给更可靠的机器学习模型,值得做临床AI的看看。原文
12:12arXiv: OpenAI@Lingyao Li, Deyi Li, Chen Chen, Renkai Ma, Runlong Yu, Mingquan Lin, Rui Yin, Lizhou Fan, Cathy Shyr, Siyuan Ma, Mei Liu, Steven Bethard精选这篇综述系统分析了 LLM-as-a-Judge 在医疗领域的应用现状,涵盖临床决策支持、自然语言处理、医学问答和医疗沟通等场景。研究检索了 2023 年 1 月至 2026 年 2 月的 541 篇文献,最终纳入 134 项研究。OpenAI 模型是最常用的评判者,提示工程几乎出现在所有研究中,集成、多智能体和检索增强设计是常见扩展。在报告人类验证的研究中,LLM 评判者与专家判断呈现中等到强对齐,但可靠性因任务而异。该综述认为 LLM-as-a-Judge 是可扩展的医疗 AI 评估框架,但其临床价值取决于模型设计和严格验证。论文LLM-as-a-Judge医疗AI评估框架临床决策支持人类对齐1 个信源在谈推荐理由:医疗 AI 评估一直缺乏规模化手段,这篇综述系统梳理了 LLM-as-a-Judge 在临床场景的落地情况,做医疗 AI 开发或评估的团队可以快速了解当前方法的有效性和局限。原文
10:49arXiv: DeepSeek@Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud精选一项新研究评估了提示语言对大型语言模型临床诊断推理和最终诊断准确性的影响,比较了英文和法文下五个模型(o3、DeepSeek-R1、GPT-4-Turbo、Llama-3.1-405B-Instruct、BioMistral-7B)的表现。180个临床案例由两位医生使用18分量表评估,涵盖16个医学专科。结果显示,除o3外,其他四个模型在英文提示下表现更好,平均差异0.37-0.91分,差异体现在鉴别诊断、逻辑结构和内部有效性等多个推理维度。这表明提示语言仍是LLM临床性能的关键决定因素,对全球语言文化公平部署具有重要影响。论文LLM临床决策支持多语言诊断推理o3推荐理由:医疗AI开发者需要注意:你的模型在非英语场景下可能掉链子,o3是唯一不受语言影响的例外。做多语言临床决策支持的团队,这篇论文值得细读。原文
10:37arXiv cs.LG@Fateme Golivand, Michael Skinner, Saurabh Mathur, Ameet Soni, Phillip Reeder, Kristian Kersting, Lakshmi Raman, Sriraam Natarajan精选该研究将儿科ECMO(体外膜肺氧合)中的临床决策建模为从轨迹中学习行动的问题,即模仿学习,且行动并非直接观测。研究采用基于Transformer的TabPFN模型,与XGBoost、MLP等传统基线在真实儿科ECMO数据上对比。结果显示TabPFN方法在预测临床行动上持续优于传统模型,可作为儿科ECMO决策支持的强基线。这项工作解决了儿科重症监护中数据稀缺和高度复杂性的挑战,为AI辅助临床决策提供了新思路。论文模仿学习儿科ECMO临床决策支持TabPFNTransformer推荐理由:儿科重症团队终于有了一个能处理数据稀缺和高复杂性的AI基线——TabPFN在ECMO决策建模上超越传统方法,做临床决策支持系统的研究者可以直接拿来对比或集成。原文
13:37百川智能 Baichuan@BaichuanAI百川AI发布了Baichuan-M3技术报告,该模型专为临床决策支持设计,而非通用问答。它基于真实门诊工作流(问诊→检查→诊断)进行优化,旨在提升医疗场景下的AI辅助能力。报告和模型权重已公开,用户可在线试用。AI模型百川Baichuan-M3临床决策支持医疗AI开源/仓库推荐理由:医疗AI从业者终于有了一个真正对齐临床工作流的模型——从问诊到诊断全链路优化,做医疗信息化或AI辅助诊断的团队值得深入研究。原文