AITOP

5月15日

11:06

arXiv cs.AI@Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang

精选58

多轮对话系统在处理长距离依赖时容易丢失关键信息，导致回答不一致。现有方法要么依赖高延迟的外部记忆，要么通过迭代摘要丢失细节。本文提出Self-Recall Thinking (SRT)框架，让模型在推理时自主识别并召回历史有用轮次，生成更一致的回复。SRT包含依赖构建、能力初始化和推理优化三个阶段，通过可验证奖励优化召回和推理。实验表明，SRT在多个数据集上F1提升4.7%，端到端延迟降低14.7%，在推理延迟和准确性间取得更好平衡。

论文多轮对话一致性长距离依赖推理优化 Self-Recall Thinking

推荐理由：做对话系统或客服机器人的团队，SRT解决了长对话中信息稀疏和一致性差的痛点，无需外部模块就能提升效果，值得在长上下文场景中试试。