09:49arXiv cs.AI@Minh-Khoi Pham, Luca Cotugno, Alina Sirbu, Tai Tan Mai, Martin Crane, Marija Bezbradica精选该研究提出了一种轻量级适配方法,将表格基础模型(如TabPFN、TabDPT、TabICL)应用于临床生存分析,通过直接训练一个生存感知头(MTLR)来预测右删失的时间事件结果。在多个公开生存基准和两个大规模ICU队列(MIMIC-IV和eICU)上的评估显示,该方法在C-index指标上优于传统深度生存模型(如DeepSurv),相对提升达1.4%-1.7%。这表明预训练表格表示与生存感知目标的结合为临床生存预测提供了实用且有效的替代方案。论文表格基础模型生存分析临床决策迁移学习TabPFN推荐理由:临床研究人员和医疗AI开发者终于有了一个无需从头训练就能做生存分析的方案——用表格基础模型加一个轻量头就能超越DeepSurv,做ICU预后预测的团队可以直接在MIMIC-IV和eICU上复现。原文
10:31arXiv: DeepSeek@Ruihui Hou, Siyi Zhu, Ziyue Huai, Guangya Yu, Yongqi Fan, Chunming Wang, Tong Ruan现有基准主要评估大模型在单疗程场景中的表现,缺乏对多疗程(患者病情随时间演变)的系统评估。为此,研究者提出了ClinicalMC基准,包含1275个中文和5804个英文样本,覆盖从入院到出院的四个阶段(分诊、首诊检查/诊断/治疗、后续多疗程检查/评估/治疗、最终诊断)。英文数据集患者平均经历5.11个疗程,中文数据集为3.42个。他们构建了包含患者、考官和医生智能体的多智能体评估框架,并设计了单轮静态和多轮动态两种实验设置,评估了闭源模型(如GPT5-mini)、开源模型(如DeepSeek-V3.2)和医疗模型(如HuatuoGPT-o1)。该工作旨在更好地理解大模型在医疗领域的表现,支持其有效部署。论文临床决策多疗程基准测试医疗AI多智能体评估推荐理由:医疗AI开发者终于有了评估模型在多疗程动态决策中的基准——ClinicalMC覆盖从分诊到出院的完整流程,做临床决策系统的团队可以直接拿来测模型。原文
11:59arXiv cs.AI@Yuxing Lu, Yushuhong Lin, Wenqi Shi, J. Ben Tamo, Xukai Zhao, Jinzhuo Wang, May Dongmei Wang精选ClinEnv 是一个交互式基准测试,用于评估大语言模型在真实住院病例中的临床决策能力。它模拟了医生在不确定性下逐步收集信息并做出不可逆决策的过程,每个病例被自动构建为有序的决策阶段,模型必须主动查询四个专业智能体后才能做出诊断和治疗决策。评估结果显示,最强模型仅达到0.31的决策F1分数,且结果质量与过程质量严重脱钩——模型在恢复出院诊断上表现较好(0.51 F1),但在管理行动上很差(0.17 F1),且会持续发出冗余查询。ClinEnv 揭示了传统结果导向评估无法捕捉的信息获取差距。论文临床决策LLM评估住院模拟信息获取基准测试推荐理由:医疗AI开发者终于有了一个能评估LLM临床推理过程的基准——ClinEnv不仅看结果,还看信息收集策略,做临床决策系统的团队值得关注。原文