AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:长期记忆×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月20日
10:20
10:20arXiv cs.AI@Hebin Hu, Renke Dai, Ah-Hwee Tan, Yilin Kang
精选
研究团队提出一个框架,用于合成高质量、长期医疗对话数据集MediLongChat,以评估医疗AI代理的记忆和推理能力。该框架通过知识引导分解为三个阶段:构建具有多样疾病和并发症轨迹的患者档案、生成每次就诊的多轮对话、整合为连贯的纵向历史数据集。他们设立了三个基准任务(对话内推理、跨对话推理、合成推理)来测试医疗代理的记忆能力。实验表明,即使最先进的LLM在MediLongChat上也表现不佳,凸显了该基准的挑战性和开发定制方法的必要性。
论文医疗AI长期记忆对话系统数据集LLM评估

推荐理由:医疗AI开发者终于有了一个能真正测试长期记忆能力的基准——MediLongChat让跨会话推理变得可评估,做医疗对话系统的团队建议直接拿来跑跑看。
原文
5月15日
09:57
09:57arXiv cs.AI@Zhao Yang, Wang Huan, Li Yingshuo, Tu Haomiao, Lin Hujite
精选
ARPM 是一个外部时序记忆治理框架,旨在解决大语言模型在长程交互中常见的事实丢失、时间线混乱、人格漂移和稳定性下降问题。该框架将静态知识记忆与动态对话经验记忆分离,结合向量检索、BM25、RRF融合、双时序重排序、时序证据阅读和受控分析协议,实现证据验证与答案绑定。实验表明,在50轮问答中,ARPM在1:5信噪比下人工审查召回率达100%,在1:200+下仍达80%;消融实验显示,禁用对话历史检索后严格准确率从100%降至66.7%。该方法将长期人格一致性分解为可治理的组件,支持白盒评估。
论文长期记忆人格一致性检索增强生成时序记忆ARPM

推荐理由:做对话系统或长期记忆研究的团队,ARPM 把人格一致性从玄学变成了可审计、可迁移的工程问题,值得看看它的实验设计和消融结果。
原文
精选全部日报登录