论文精选

推理能力反而有害?SOAP笔记生成评测揭示LLM推理与文档质量的关系

When Reasoning Hurts: Source-Aware Evaluation of Frontier LLMs for Clinical SOAP Note Generation

精选理由

医疗AI开发者注意了:推理模型在临床文档任务上可能适得其反,做医疗NLP的团队在部署前务必做任务专属评估,别盲目相信推理能力。

AI 摘要

一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现,发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集,通过2x2实验设计控制推理和检索增强生成(RAG)两个因素。结果显示,非推理配置的GPT-5.4整体质量最高,而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升,但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。

AI 翻译 · 中文

一项新研究评估了GPT-5.4、DeepSeek-V4-Flash和Gemma-4-E4B在临床SOAP笔记生成中的表现,发现启用推理能力反而显著降低了GPT-5.4的输出质量。研究使用OMI Health、ACI-Bench和PriMock57三个数据集,通过2x2实验设计控制推理和检索增强生成(RAG)两个因素。结果显示,非推理配置的GPT-5.4整体质量最高,而DeepSeek-V4-Flash在推理配置中表现最佳。同源RAG带来模型依赖的小幅提升,但推理能力不应被假设为能自动改善对保真度敏感的临床文档生成。

arXiv: DeepSeekReasoning-enabled LLMs perform strongly on medical reasoning benchmarks, but it remains unclear whether these gains transfer to structured clinical documentation; we investigate this question using SOAP note generation f