11:11arXiv cs.LG@Rui Wu, Zongyuan Chen, Hong Xie, Defu Lian, Enhong Chen精选A-IHF (Adaptive Anisotropic Instrumental Heat Flow) 是一种用于控制函数工具变量估计的确定性图扩散残差提取方法。它利用图结构对处理变量进行各向异性扩散,通过检测处理值的大跳跃并衰减跨跳跃的导纳,生成稀疏图求解的残差。在包含图、核、树、提升、级联和神经网络等控制函数基线的54个合成基准单元中,受保护观测型A-IHF取得了最低的平均结构响应均方误差(MSE),并在32个单元中优于最佳非A-IHF基线。AI模型A-IHF工具变量图扩散因果推断控制函数推荐理由:新方法A-IHF搞定了工具变量残差提取原文
13:03arXiv cs.AI@Fabio Rovai精选论文发现一个反直觉的失败模式:即使有足够观测和干预数据,强预测器在识别反事实世界之间的耦合时也会崩溃为单点,而真实值是一个数据无法缩小的可接受区间。作者提出将世界模型建模为可接受世界上的正半定耦合核,其对角线是普通后验(预测器能恢复的),非对角线是跨世界耦合(预测器无法恢复的)。该耦合核可以被边界约束、通过逻辑结构收紧、并通过针对性约束学习来缩小差距。论文提供了完整的理论框架,并指出完全重建该核在Sly-Sun阈值以下是可处理的,以上则不可近似。论文因果推断反事实推理世界模型耦合核不确定性推荐理由:这篇论文戳破了“数据足够就能预测一切”的常见假设,做因果推断、反事实推理或世界模型研究的开发者会看到理论上的新边界——原来预测器天生缺失跨世界耦合信息,而WorldKernel给出了补全它的数学框架,值得细读。原文
09:11arXiv: DeepSeek@Leonard Engmann, Christian Medeiros Adriano, Holger Giese精选这篇论文对混合专家模型(MoE)中的专家重要性评估方法进行了因果审计。研究者发现,当前广泛使用的路由统计指标(如利用率、激活范数、路由权重分布)无法预测哪些专家可以被移除而不影响模型功能。他们在 OLMoE-1B-7B-0924、Qwen1.5-MoE-A2.7B 和 DeepSeek-V2-Lite 三个高冗余 MoE 架构上进行了 token 级干预实验,结果在所有 60 个指标-层组合中,观测指标与因果重要性之间的效应量均低于 Cohen's d = 0.17。现有剪枝方法之所以有效,并非因为它们识别出了可去除的专家,而是因为早期层的冗余性使得大多数选择标准可以互换。这项研究为可解释性领域提供了一个明确的反例,说明从总体观测统计到 token 级干预结论的推理步骤需要更严格的因果验证。论文MoE/混合专家模型剪枝因果推断可解释性审计推荐理由:MoE 模型剪枝的常用假设被实验证伪了——做模型压缩或可解释性研究的团队,建议重新审视你的专家选择策略,别再依赖路由统计指标。原文
00:48lmarena.ai@lmarena_ai精选72°Agent Arena 排行榜发布方法论深度解读,通过因果推断评估模型的智能体性能。排行榜基于五个信号:任务成功率、可操控性、错误恢复能力、用户表扬与投诉比、工具幻觉率。这为评估 AI 智能体能力提供了更全面的框架,帮助开发者理解模型在实际任务中的表现。AI产品智能体排行榜因果推断评估方法Agent Arena推荐理由:做 AI 智能体评估的团队终于有了更科学的参考框架——五个信号覆盖了任务执行和用户体验,值得研究评测方法的开发者点开细看。原文
13:04arXiv cs.LG@Hazhir Aliahmadi, Irina Babayan, Greg van Anders精选传统贝叶斯网络通过优化生成有向无环图(DAG)来建模因果关系,但真实数据常允许多种因果链,导致优化结果可能包含伪影。本文提出基于熵推断的方法,生成与数据一致的因果图谱集(causal atlases),量化因果关系的结构模糊性。在2节点和20节点的线性结构方程模型模拟噪声数据上,该方法采样最大熵图集,发现“最优”DAG中存在不一致的因果伪影。这为数据驱动的因果发现提供了更忠实于数据变异的框架。论文因果推断贝叶斯网络熵推断DAG结构模糊性推荐理由:因果发现领域长期依赖单一最优DAG,但真实数据往往支持多种解释——这篇论文用熵推断解决了这个痛点,做因果推断或复杂系统建模的研究者值得关注,方法可直接用于评估因果结构的稳健性。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
10:52arXiv cs.LG@Nikita Dhawan, Arnav Paruthi, Andrew Kim, Lovedeep Gondara, Jekaterina Novikova, Chris J. Maddison精选该论文提出了一种针对高维治疗(如文本、连续变量)的因果风险最小化方法。传统因果估计假设所有干预都被观察到,但在高维空间(如所有可能的文本字符串)中不可行。作者将因果推断转化为学习问题,证明因果误差可分解为一系列矩平衡误差,并设计了直接优化因果估计的目标函数。他们还展示了如何将高维治疗效果投影到低维属性上,使单一模型能回答多个因果问题,无需额外训练。在亚马逊评论的半合成数据集上,实验验证了高阶平衡误差优化的优势,以及投影估计与属性特定估计的竞争力。论文因果推断高维治疗文本干预矩平衡半合成数据集推荐理由:做因果推断或文本干预效果分析的团队,这篇论文给出了处理高维治疗空间的实用框架,可以直接参考其矩平衡优化方法。原文
11:19arXiv cs.LG@Christopher Stith, Medha Barath, Vahid Balazadeh, Jesse C. Cresswell, Rahul G. Krishnan精选因果推断在多个学科中至关重要,但连续治疗设置(干预变量为连续值)的研究远少于二元治疗。本文提出首个针对连续治疗设置的因果基础模型,通过元学习在未见任务上预测因果效应,无需额外训练。模型设计了一种新的数据生成过程先验,生成丰富的因果训练语料,并训练Transformer利用上下文学习从观测数据重建个体治疗-响应曲线。该模型在个体治疗-响应曲线重建任务上达到最先进性能,超越了专门训练的因果模型。论文因果推断基础模型连续治疗Transformer元学习推荐理由:连续治疗效应预测是因果推断的难点,做医疗、经济等领域的因果分析团队可以直接用这个基础模型零样本预测,省去大量模型训练成本。原文