论文精选

MediLongChat:合成长期医疗对话数据集,评估AI记忆能力

Synthesis and Evaluation of Long-term History-aware Medical Dialogue

精选理由

医疗AI开发者终于有了一个能真正测试长期记忆能力的基准——MediLongChat让跨会话推理变得可评估,做医疗对话系统的团队建议直接拿来跑跑看。

AI 摘要

研究团队提出一个框架,用于合成高质量、长期医疗对话数据集MediLongChat,以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段:构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务(对话内推理、跨对话推理、合成推理)来测试医疗代理的记忆能力。实验表明,即使最先进的LLM在MediLongChat上也表现不佳,凸显了该基准的挑战性和开发定制方法的必要性。

AI 翻译 · 中文

研究团队提出一个框架,用于合成高质量、长期医疗对话数据集MediLongChat,以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段:构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务(对话内推理、跨对话推理、合成推理)来测试医疗代理的记忆能力。实验表明,即使最先进的LLM在MediLongChat上也表现不佳,凸显了该基准的挑战性和开发定制方法的必要性。

arXiv cs.AIAn effective healthcare agent must be able to recall and reason over a patient's longitudinal medical history. However, the absence of datasets with realistic long-term dialogue timelines limits systematic evaluation. Re