00:22rohanpaul_ai@rohanpaul_ai72°Guide Labs 推出了首个可解释 AI 平台 Clairy,旨在解决 AI 的“黑箱”问题。该模型以文本块形式生成内容,用户可点击某一块查看模型生成时使用的概念(如“海洋生物”、“计算机科学”等)。Clairy 还提供训练数据归因功能,将生成的文本块与相似训练样本关联,便于诊断错误。此外,用户可通过概念引导直接增强或抑制特定概念,无需重写提示或重新训练模型。AI产品可解释AI黑箱问题概念引导训练数据归因Clairy推荐理由:Clairy 让 AI 决策过程透明化,解决了模型输出错误时只能靠猜的痛点,做 AI 安全、审计或模型调试的团队值得关注,可以直接用它来诊断和修正模型偏见。原文
11:37arXiv cs.LG@Rishit Dagli, Abir Harrasse, Luke Zhang, Florent Draye, Amirali Abdullah, Bernhard Schölkopf, Zhijing Jin精选训练数据归因(TDA)旨在追溯模型预测与训练数据的关系,但传统方法依赖梯度追踪,对大型语言模型(LLM)计算成本极高。STRIDE 提出新思路:不在参数空间估计变化,而是在激活空间建模训练数据的功能影响。它通过轻量级“转向算子”模拟数据子集训练带来的行为偏移,并利用稀疏恢复技术从这些算子中分解出单个训练样本的影响。该方法在 LLM 预训练归因上达到最先进水平,且速度比此前方法快 13 倍。实验还验证了其在数据选择、数据污染检测等下游任务中的实用价值。论文训练数据归因LLM稀疏恢复激活空间转向算子推荐理由:STRIDE 解决了 LLM 训练数据归因计算成本高、依赖局部近似的痛点,做模型可解释性、数据质量分析的团队可以直接用这个新框架。原文