精选理由
做对话AI研究和产品开发的团队,终于有了一个能捕捉用户真实想法的数据集——ThoughtTrace帮你理解用户为什么发那条消息、对回复的真实感受,值得用来改进助手对齐和个性化。
现有AI对话数据集仅记录用户说了什么,但忽略了用户在想什么。ThoughtTrace是首个大规模数据集,包含1,058名用户、2,155次对话、17,058轮交互和10,174条思维标注,覆盖20种语言模型。研究发现,用户的思维与消息内容在语义上截然不同,前沿LLM难以从上下文中推断,且思维内容多样、与对话阶段相关。该数据集可用于改进用户行为预测和训练个性化助手,为构建更理解用户潜在目标的AI系统奠定基础。
AI 翻译 · 中文
现有AI对话数据集仅记录用户说了什么,但忽略了用户在想什么。ThoughtTrace是首个大规模数据集,包含1,058名用户、2,155次对话、17,058轮交互和10,174条思维标注,覆盖20种语言模型。研究发现,用户的思维与消息内容在语义上截然不同,前沿LLM难以从上下文中推断,且思维内容多样、与对话阶段相关。该数据集可用于改进用户行为预测和训练个性化助手,为构建更理解用户潜在目标的AI系统奠定基础。
Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn huma…