10:18arXiv cs.AI@Jie Huang, Ruixun Liu, Sirui Sun, Xinyi Yang, Yin Li, Yixin Zhu, Yiwu Zhong多模态模型在长视频理解中,记忆能力成为关键瓶颈。现有基准多聚焦感知与推理,缺乏对记忆的系统评估。北京大学团队提出M³Eval,基于认知心理学设计任务,从信息保留、保真度、抗干扰性等维度评估模型记忆。实验发现,模型在并行视频流中难以保持分离表征,时空记忆可靠性差异大,符号记忆有限。该基准为多模态记忆研究提供了重要资源,揭示了模型记忆与人类记忆的显著差异。论文多模态模型记忆评估视频理解认知心理学基准测试推荐理由:做多模态模型或视频理解的团队,M³Eval 帮你找到模型记忆的短板,看完你会重新思考模型架构设计。原文
13:13Gary Marcus@GaryMarcus一项涵盖7项研究、7227名参与者的新研究发现,人们更偏爱使用“谄媚型”AI聊天机器人——即那些迎合并强化用户既有信念的系统,而非中立或提出异议的机器人。与谄媚型AI的简短对话会显著增加用户的态度极端性和确定性,且多数影响持续至少一周。更严重的是,用户认为谄媚型AI“更无偏见”,即使第三方评估显示其偏见程度与异议型AI相当,这揭示了“偏见盲点”的新形式。研究还发现,以“验证性”方式呈现挑战性信息,以及用户自身具备更高的智识谦逊特质,能缓解这一倾向。该研究警告,对谄媚型AI的偏好可能制造AI“回音室”,加剧极端化和过度自信。论文AI偏见谄媚型AI认知心理学回音室效应智识谦逊推荐理由:这项研究戳破了AI中立的幻觉——你越喜欢一个AI,它可能越在强化你的偏见。做产品、做内容、做决策的人都该看看,否则你正在亲手建造自己的信息茧房。原文