10:10arXiv: OpenAI@Xiangyu Ma, Mengmi Zhang, Shannon Ang, Minne Chen该研究使用OpenAI、Anthropic和DeepSeek的LLM为每个模型生成277,470个(30×9249)硅样本,基于美国艺术参与调查(SPPA)数据。研究发现硅样本对喜好存在系统性正偏差,使生态估计值膨胀;样本间的关系结构完全丢失;年龄-品味关联被削弱,阶级-品味关联被复活,性别和种族-品味关联被夸大。论文LLM文化消费硅样本调查偏差arXiv5 个信源在谈推荐理由:这篇论文揭示了用AI模拟人类文化品味时的三个致命缺陷:过度喜欢、关系缺失和社会偏差。做市场调研的人最好先读一读。原文
11:04arXiv cs.AI@Muhammad Hassan, Ramazan Yener, Ece Gumusel, Masooda Bashir该研究分析了59款AI医疗聊天机器人应用的超过15000条用户评论,识别出三大类常见故障:访问障碍与服务不可靠、用户体验与交互质量、计费与客户支持问题。隐私和安全问题与最负面的体验相关。研究将AI医疗聊天机器人视为信息基础设施,为设计师、政策制定者和信息专业人士提供改进数字健康系统的可行见解。论文AI医疗聊天机器人用户研究信息基础设施arXiv推荐理由:这篇论文分析了59款AI医疗聊天机器人的1.5万条用户评论,告诉你最常见的故障在哪里,尤其是隐私和安全问题最影响体验。做医疗AI的值得看看。原文
10:22arXiv cs.LG@Cosimo Gregucci, Obaidah Theeb, Daniel Hernandez, Antonio Vergari, Steffen Staab这篇论文研究了知识图谱基础模型(KGFM)的零样本泛化机制。作者提出“半链接”概念,即三元组(h,r,t)中的(h,r)或(r,t)部分。实验表明,只需观察到测试三元组的一个半链接在推理图中,就足以准确预测完整链接。基于此,论文划分了四种半链接观测组合场景,并在这些场景下对现有KGFM进行了分层分析。分析发现,当前最先进的KGFM依赖已见半链接进行预测,而未见半链接带来不同挑战,这为未来模型改进提供了诊断方向。论文KGFMknowledge graph零样本泛化半链接arXiv推荐理由:这篇论文把知识图谱模型泛化的底层逻辑讲清楚了——原来只要看到半个链接就能猜出整条,还分出了四种情况。搞图神经网络或KG推理的人别错过。原文
13:47arXiv cs.LG@Shaivi Malik该论文提出一个探索性框架,将神经网络模型编辑形式化为强化学习问题,代理通过奖励反馈修改模型参数。框架包含两个环境:MaskWorld(乘法缩放权重)和 ShiftWorld(加法更新权重),奖励函数结合效用保持和任务特定编辑目标。在文本分类的偏见缓解和图像分类的机器遗忘任务上,学习到的策略在遗忘任务中将遗忘集准确率降至接近 0%,同时保留集准确率超过 90%;在偏见缓解中,偏见相关性能提升超 5% 且保持分类效用。结果表明,模型编辑可通过 RL 学习策略,无需为每个任务手动设计专用算法。论文强化学习模型编辑偏见缓解机器遗忘arXiv推荐理由:这个框架让做模型微调或安全对齐的团队省去手动设计编辑算法的时间,直接用 RL 学习策略就能完成偏见缓解或遗忘任务,值得关注。原文