这篇论文用实验告诉你,临床AI回答EHR问题时,推理步骤越多越容易翻车。Claude、GPT-4o和GPT-5.4都逃不过,部署前得重点防多步推理。
研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。
研究者标注313个MedAlign EHR问答对的四层跃点分类,评估301个问题。三个模型(Claude Sonnet 4-6、GPT-4o、GPT-5.4-2026-03-05)准确率随跃点增加单调下降:Claude从30.6%(hop=1)降至17.6%(hop=4),GPT-4o从37.8%降至14.7%,GPT-5.4从37.8%降至23.5%。上下文充分性审计显示高跃点问题并未因EHR截断而更差,准确率下降源于推理难度。扩展思考未明显缓解精度-深度曲线,思考token使用量与跃点正相关(r=0.31)。
Aggregate accuracy benchmarks conceal a systematic structure in how large language models fail at electronic health record (EHR) question answering: questions requiring more inferential steps produce disproportionately m…
- AlphaSignal06-16 06:22原文