arXiv cs.AI@Hebin Hu, Renke Dai, Ah-Hwee Tan, Yilin Kang精选58研究团队提出一个框架,用于合成高质量、长期医疗对话数据集MediLongChat,以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段:构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务(对话内推理、跨对话推理、合成推理)来测试医疗代理的记忆能力。实验表明,即使最先进的LLM在MediLongChat上也表现不佳,凸显了该基准的挑战性和开发定制方法的必要性。论文医疗AI长期记忆对话系统数据集LLM评估推荐理由:医疗AI开发者终于有了一个能真正测试长期记忆能力的基准——MediLongChat让跨会话推理变得可评估,做医疗对话系统的团队建议直接拿来跑跑看。
arXiv cs.AI@Vineet Kotecha, Vansh Gupta精选73当前语言模型在会话间缺乏状态记忆,限制了长期个性化交互。研究者提出情感注意状态记忆(EASM)架构,在推理时动态构建用户特定上下文,整合长期历史、情感信号和推断意图。在30次非脚本对话的A/B测试中,EASM在记忆基础(提升95%)、计划清晰度(57%)和情感验证(34%)上显著优于无状态基线,即使在悲伤、痛苦等情感对抗对话中也表现稳定。该架构可能成为超个性化AI系统的基础设施层,但需更大规模验证。论文情感记忆超个性化状态记忆对话系统EASM推荐理由:EASM解决了AI对话缺乏长期记忆和情感理解的痛点,做对话系统或个性化AI产品的团队值得关注,它让AI真正记住你是谁、感受如何。