论文精选

ClinEnv:评估LLM作为主治医生的多阶段住院模拟环境

ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents

精选理由

医疗AI开发者终于有了一个能评估LLM临床推理过程的基准——ClinEnv不仅看结果,还看信息收集策略,做临床决策系统的团队值得关注。

AI 摘要

ClinEnv 是一个交互式基准测试,用于评估大语言模型在真实住院病例中的临床决策能力。它模拟了医生在不确定性下逐步收集信息并做出不可逆决策的过程,每个病例被自动构建为有序的决策阶段,模型必须主动查询四个专业智能体后才能做出诊断和治疗决策。评估结果显示,最强模型仅达到0.31的决策F1分数,且结果质量与过程质量严重脱钩——模型在恢复出院诊断上表现较好(0.51 F1),但在管理行动上很差(0.17 F1),且会持续发出冗余查询。ClinEnv 揭示了传统结果导向评估无法捕捉的信息获取差距。

AI 翻译 · 中文

ClinEnv 是一个交互式基准测试,用于评估大语言模型在真实住院病例中的临床决策能力。它模拟了医生在不确定性下逐步收集信息并做出不可逆决策的过程,每个病例被自动构建为有序的决策阶段,模型必须主动查询四个专业智能体后才能做出诊断和治疗决策。评估结果显示,最强模型仅达到0.31的决策F1分数,且结果质量与过程质量严重脱钩——模型在恢复出院诊断上表现较好(0.51 F1),但在管理行动上很差(0.17 F1),且会持续发出冗余查询。ClinEnv 揭示了传统结果导向评估无法捕捉的信息获取差距。

arXiv cs.AIClinical practice is not the selection of an answer from enumerated options: a physician gathers heterogeneous information incrementally and commits to sequential, irreversible decisions under uncertainty. Static benchma