10:13arXiv cs.LG@Aniq Ur Rahman研究人员在二元逻辑模型中发现,最大化Fisher信息与参数可恢复性的区域同时也是熵最高的区域,导致即使在完美参数恢复下个体预测也固有困难。他们提出一个因果概率框架,用于生成具有瞬态边和已知因果结构的时间图。推导了Cramér-Rao界,验证了参数估计误差与不可减少的预测损失之间的权衡。结果表明,仅靠预测准确性可能无法反映模型是否学习了潜在因果机制。论文时间链接预测因果推断估计-预测权衡二元逻辑模型推荐理由:这篇论文解释了为什么时间链接预测中准确率高不一定代表模型学对了因果关系,还给出了数学上的权衡证明。原文
10:38arXiv cs.LG@Pengfei Li, Mohammad KhalilFed-CausalDiff是一种联邦因果扩散框架,专门用于“do-simulation”和政策评估。它将潜在状态演化分解为全局因果评分函数和局部混淆评分函数,实现解耦同步(DSS),客户端只聚合共享因果机制而保留本地特定混淆。在四个数据集上的实验显示,Fed-CausalDiff在ATE和政策价值估计精度上优于传统方法,并在通信成本与推理保真度之间取得更好平衡。论文Fed-CausalDiff联邦学习因果推断扩散模型推荐理由:这篇论文提出Fed-CausalDiff,让联邦学习不仅能拟合历史数据,还能做因果干预模拟。它在四个数据集上比常规方法更准,而且通信开销可控,适合分布式医疗或金融场景。原文
10:32arXiv cs.LG@Yiyan Huang, Cheuk Hang Leung, Qi Wu, Zhiheng Zhang该论文研究离线策略学习中结果变量为分布的情况,将每个潜在结果视为概率测度,并通过 Wasserstein 重心下的效用函数定义奖励。论文基于 IPW 和 Doubly Robust 估计量建立了统计保证,证明了有限样本后悔率的领先项为 O~(√(N-dim(Π)/N))。在一维 Wasserstein 设定下,后悔率仍由策略类复杂度主导。另外提供了极小化下界,证明了对 N 和 N-dim(Π) 的领先依赖的紧致性。论文Wasserstein离线策略学习分布结果因果推断IPW推荐理由:这篇论文把因果推断中的离线策略学习扩展到了分布结果,用Wasserstein重心定义奖励,并给出了严格的统计保证,和传统均值策略学习不同,适合做理论研究的参考。原文
12:15arXiv cs.LG@Riccardo Cadei, Frank Otchere, Nyasha Tirivayi, Gustavo Angeles Tagliaferro, Falco J. Bargagli-Stoffi, Francesco Locatello该论文提出NEXIS(Neural Exposure Interaction Search),一种迭代方法,用于在可控实验中从多模态预处理表示中识别异质处理效应的因果结构。NEXIS将HTE识别重新定义为马尔可夫毯发现问题,并提供了可证明的一致性选择保证。作者将NEXIS应用于非洲两项扶贫项目,结合卫星影像捕捉未测量的环境效应修饰因子,得到了新的、可解释的政策优化指南。实验验证了NEXIS在合成数据和实际数据上的有效性。论文NEXIS异质处理效应因果推断卫星影像政策优化推荐理由:这篇论文用NEXIS方法在非洲扶贫数据上找到了新的环境因子,能指导政策迭代,因果推断爱好者可以看看。原文
11:11arXiv cs.LG@Rui Wu, Zongyuan Chen, Hong Xie, Defu Lian, Enhong Chen精选A-IHF (Adaptive Anisotropic Instrumental Heat Flow) 是一种用于控制函数工具变量估计的确定性图扩散残差提取方法。它利用图结构对处理变量进行各向异性扩散,通过检测处理值的大跳跃并衰减跨跳跃的导纳,生成稀疏图求解的残差。在包含图、核、树、提升、级联和神经网络等控制函数基线的54个合成基准单元中,受保护观测型A-IHF取得了最低的平均结构响应均方误差(MSE),并在32个单元中优于最佳非A-IHF基线。AI模型A-IHF工具变量图扩散因果推断控制函数推荐理由:新方法A-IHF搞定了工具变量残差提取原文
13:03arXiv cs.AI@Fabio Rovai精选论文发现一个反直觉的失败模式:即使有足够观测和干预数据,强预测器在识别反事实世界之间的耦合时也会崩溃为单点,而真实值是一个数据无法缩小的可接受区间。作者提出将世界模型建模为可接受世界上的正半定耦合核,其对角线是普通后验(预测器能恢复的),非对角线是跨世界耦合(预测器无法恢复的)。该耦合核可以被边界约束、通过逻辑结构收紧、并通过针对性约束学习来缩小差距。论文提供了完整的理论框架,并指出完全重建该核在Sly-Sun阈值以下是可处理的,以上则不可近似。论文因果推断反事实推理世界模型耦合核不确定性推荐理由:这篇论文戳破了“数据足够就能预测一切”的常见假设,做因果推断、反事实推理或世界模型研究的开发者会看到理论上的新边界——原来预测器天生缺失跨世界耦合信息,而WorldKernel给出了补全它的数学框架,值得细读。原文
09:11arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese精选这篇论文对混合专家模型(MoE)中的专家重要性评估方法进行了因果审计。研究者发现,当前广泛使用的路由统计指标(如利用率、激活范数、路由权重分布)无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验,结果在所有 60 个指标-层组合中,观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效,并非因为它们识别出了可去除的专家,而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例,说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。论文MoE/混合专家模型剪枝因果推断可解释性审计推荐理由:MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队,建议重新审视你的专家选择策略,别再依赖路由统计指标。原文
00:48lmarena.ai@lmarena_ai精选72°Agent Arena 排行榜发布方法论深度解读,通过因果推断评估模型的智能体性能。排行榜基于五个信号:任务成功率、可操控性、错误恢复能力、用户表扬与投诉比、工具幻觉率。这为评估 AI 智能体能力提供了更全面的框架,帮助开发者理解模型在实际任务中的表现。AI产品智能体排行榜因果推断评估方法Agent Arena推荐理由:做 AI 智能体评估的团队终于有了更科学的参考框架——五个信号覆盖了任务执行和用户体验,值得研究评测方法的开发者点开细看。原文
13:04arXiv cs.LG@Hazhir Aliahmadi, Irina Babayan, Greg van Anders精选传统贝叶斯网络通过优化生成有向无环图(DAG)来建模因果关系,但真实数据常允许多种因果链,导致优化结果可能包含伪影。本文提出基于熵推断的方法,生成与数据一致的因果图谱集(causal atlases),量化因果关系的结构模糊性。在2节点和20节点的线性结构方程模型模拟噪声数据上,该方法采样最大熵图集,发现“最优”DAG中存在不一致的因果伪影。这为数据驱动的因果发现提供了更忠实于数据变异的框架。论文因果推断贝叶斯网络熵推断DAG结构模糊性推荐理由:因果发现领域长期依赖单一最优DAG,但真实数据往往支持多种解释——这篇论文用熵推断解决了这个痛点,做因果推断或复杂系统建模的研究者值得关注,方法可直接用于评估因果结构的稳健性。原文
11:07arXiv cs.AI@Anay Mehrotra, Phuc Tran, Van H. Vu, Manolis Zampetakis该研究提出了一种新的矩阵补全方法,用于估计异质性治疗效果(即干预对每个个体的不同影响),而非仅平均效果。在面板数据中,数据被表示为所有单元-时间治疗效果的矩阵,问题转化为矩阵补全。现有方法仅能提供平均治疗效果的保证,而该研究给出了一种计算高效的估计器,在未知倾向性和标准低秩假设下,实现了行方向上的ℓ2误差为Õ(√(1/n + n/m²))。技术上,该分析首次建立了低秩近似的行方向ℓ2扰动界,补充了现有谱、Frobenius和逐元素扰动理论。论文因果推断矩阵补全异质性治疗效果低秩近似面板数据推荐理由:做因果推断或面板数据分析的研究者值得关注——这项研究解决了异质性治疗效果估计中行级误差保证的难题,提供了更精确的理论工具,可以直接用于改进现有估计方法。原文
10:52arXiv cs.LG@Nikita Dhawan, Arnav Paruthi, Andrew Kim, Lovedeep Gondara, Jekaterina Novikova, Chris J. Maddison精选该论文提出了一种针对高维治疗(如文本、连续变量)的因果风险最小化方法。传统因果估计假设所有干预都被观察到,但在高维空间(如所有可能的文本字符串)中不可行。作者将因果推断转化为学习问题,证明因果误差可分解为一系列矩平衡误差,并设计了直接优化因果估计的目标函数。他们还展示了如何将高维治疗效果投影到低维属性上,使单一模型能回答多个因果问题,无需额外训练。在亚马逊评论的半合成数据集上,实验验证了高阶平衡误差优化的优势,以及投影估计与属性特定估计的竞争力。论文因果推断高维治疗文本干预矩平衡半合成数据集推荐理由:做因果推断或文本干预效果分析的团队,这篇论文给出了处理高维治疗空间的实用框架,可以直接参考其矩平衡优化方法。原文
11:19arXiv cs.LG@Christopher Stith, Medha Barath, Vahid Balazadeh, Jesse C. Cresswell, Rahul G. Krishnan精选因果推断在多个学科中至关重要,但连续治疗设置(干预变量为连续值)的研究远少于二元治疗。本文提出首个针对连续治疗设置的因果基础模型,通过元学习在未见任务上预测因果效应,无需额外训练。模型设计了一种新的数据生成过程先验,生成丰富的因果训练语料,并训练Transformer利用上下文学习从观测数据重建个体治疗-响应曲线。该模型在个体治疗-响应曲线重建任务上达到最先进性能,超越了专门训练的因果模型。论文因果推断基础模型连续治疗Transformer元学习推荐理由:连续治疗效应预测是因果推断的难点,做医疗、经济等领域的因果分析团队可以直接用这个基础模型零样本预测,省去大量模型训练成本。原文
11:45arXiv cs.LG(学术论文)因果推断依赖不可验证的假设,现有敏感性分析框架多关注最坏情况下的结论变化,但往往不切实际。本研究将s-value框架泛化至三种常见因果假设,并提出贝叶斯敏感性价值(BSV)指标。BSV通过蒙特卡洛近似,基于真实世界证据构建先验分布,计算假设违背的期望敏感性。实证表明,最坏情况分析可能依赖违背先验知识的极端假设,而BSV能提供更可信的结论。该框架在糖尿病治疗对体重影响的观察性研究中得到验证,为研究者提供了更稳健的因果推断工具。论文因果推断贝叶斯方法敏感性分析观测研究机器学习推荐理由:提出贝叶斯敏感性价值(BSV)方法,解决了传统最坏情况敏感性分析不切实际的问题,为因果推断实践者提供了更符合先验知识的稳健性评估标准。原文
11:43arXiv cs.LG(学术论文)本文提出 DR-ME,这是首个半参数高效有限位置测试,用于检测可解释的分布治疗效果。传统的均值比较可能遗漏尾部、众数、离散度或罕见事件概率的变化,而全局核测试无法揭示具体差异位置。DR-ME 通过正交双重稳健核特征,在学习到的结果位置上评估干预核证据,返回因果差异坐标,而非仅给出全局拒绝判断。该方法具有卡方校准、局部功效优化和位置学习准则,实验显示其误差控制良好、功效可与全局测试竞争,并在半合成医学影像研究中定位了分布效应。论文因果推断分布效应半参数效率双重稳健核测试推荐理由:这项研究为因果推断中的分布效应分析提供了首个可解释且半参数高效的测试方法,尤其适合需要定位具体差异的应用场景,如精准医疗中不同人群的异质性响应分析。原文