5月20日
15:54
arXiv cs.AI@Chuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu
精选58
现有AI对话数据集仅记录用户说了什么,但忽略了用户在想什么。ThoughtTrace是首个大规模数据集,包含1,058名用户、2,155次对话、17,058轮交互和10,174条思维标注,覆盖20种语言模型。研究发现,用户的思维与消息内容在语义上截然不同,前沿LLM难以从上下文中推断,且思维内容多样、与对话阶段相关。该数据集可用于改进用户行为预测和训练个性化助手,为构建更理解用户潜在目标的AI系统奠定基础。
推荐理由:做对话AI研究和产品开发的团队,终于有了一个能捕捉用户真实想法的数据集——ThoughtTrace帮你理解用户为什么发那条消息、对回复的真实感受,值得用来改进助手对齐和个性化。