耿直：因果作用评价与因果网络学习及其结合集智俱乐部|主动学习算法_在线学习

因果推断旨在利用试验性研究和观察性研究的数据，评价变量之间的因果作用以及识别因果网络的结构。在评估因果效应时，研究人员应对混杂因素进行识别和调整。基于分配机制的可忽略性假设，例如匹配方法、修剪法、逆概加权和回归方法、双稳健估计方法等可以实现对混杂因素的调整。对于未观测的混杂因素，工具变量方法和阴性对照变量方法可以有效消除估计偏倚。当感兴趣的结局变量难以观测时，研究人员常常选择观测替代指标，替代指标准则的建立可以避免替代指标悖论现象。在因果网络模型中，因果作用的可识别性与因果网络的学习算法已成为该领域的研究热点。

1.混杂因素的识别及调整方法

什么是混杂因素

Yule-Simpson悖论表明，在因果效应评估中有必要对混杂因素进行识别和调整。基于流行病学研究中的实例，Miettinen和Cook认为混杂因素V必须满足以下两个条件：其一，它可以预测未暴露人群的风险；其二，它在暴露人群和未暴露人群中的分布不同。

基于此，后续的文献中使用两类标准对混杂因素进行严格的定义：

1.可比较性准则(Thecomparability-basedcriterion)：如果暴露人群和未暴露人群的潜在结果分布因忽略协变量而不同，则该协变量是混杂因素；

2.可压缩性准则(Thecollapsibility-basedcriterion)：如果关联度量或感兴趣的参数受到忽略协变量的影响(即在协变量上不可折叠)，则该协变量是混杂因素。

分配机制的可忽略性假设

在观察性研究中，判断混杂因素和推断因果作用的一个重要假定是处理分配机制的可忽略性(ignorabilityoftreatmentassignmentmechanism)。令V表示观测的协变量，如果满足(i)(Y1,Y0)和X在V的条件下独立和(ii)0

基于可忽略性假设的混淆因素调整方法

为了消除协变量的分布在处理组与对照组之间的差异，匹配(matching)方法经常用在观察性研究中。匹配方法的目的是对每一个个体匹配一个具有相同或相近协变量取值的个体集合，使得匹配得到的数据在处理组和对照组有相同的协变量分布，然后根据匹配数据推断因果作用。马氏度量匹配试图直接平衡所有协变量，而倾向得分匹配(propensityscorematching)可以依据一维的倾向得分构造匹配集合，以实现对随机化的模拟，目前是观察性研究中常使用的匹配方法。

此外，给定可忽略性假定和一定的正则条件，逆概加权估计(inverseprobabilityweightedestimation)和回归估计(regression-basedestimator)分别通过拟合一个倾向得分模型和建立一个对结果变量的回归模型实现对平均因果效应的估计。如果回归模型和倾向得分模型分别正确，则可以通过广义矩估计方法实现平均因果效应的相合估计，但是上述两种方法对模型特别敏感，当指定的回归模型或者倾向得分模型不正确时，往往会导致较大偏差。

Robins在研究缺失数据时提出了双稳健估计方法(doublyrobustestimation)。这种方法把回归估计和逆概加权估计结合起来，并具有双稳健性质：只要回归模型和倾向得分模型中的一个模型正确，那么双稳健估计就有相合性。相比于回归估计和倾向得分估计，双稳健估计提供了更多减少估计偏差的机会。由于双稳健估计能有效地减小模型错误导致的偏差，这种方法越来越广泛应用在缺失数据分析和因果推断中。

未观测的混杂因素调整方法

在实际研究中，如果有重要背景变量未被观测、测量误差或者选择偏差，就有潜在的未观测的混杂因素，可忽略性假定可能不成立，前一节介绍的统计推断方法在出现未观测的混杂因素时就有偏差。当存在未被观测的混杂因素时，更合理的假定是潜在可忽略性：存在未被观测的变量U满足Yx和X在(U,V)的条件下独立，其中V为观测的混杂因素。

2.替代指标悖论与替代指标准则

替代指标悖论

在科学研究中，特别是在医学和生物学试验中，当感兴趣的终点指标(endpoint)难以观测时，常会取而代之观测替代指标(surrogate)或标记物(marker)。替代指标悖论(surrogateparadox)指出，当处理(或称治疗)对替代指标有正的因果作用，并且替代指标对终点指标也有正的因果作用,该处理对终点指标也许会产生负的因果作用。例如，任何一个人假若心律正常一定比心律不正常活得更长，某种药可以显著纠正心律失常，但是这种药反而减少患者的寿命。因此，工具变量估计可能出现正负符号的悖论现象，利用中间变量的统计结论不具有传递性。

替代指标准则

为了避免替代指标悖论现象，应建立替代指标准则(criteriaforconsistentsurrogates)，即不必观测终点指标Y，而只需观测替代指标S，就可以用处理X对观测的替代指标S的因果作用的正负符号来预测处理X对未观测的终点指标Y的因果作用的正负符号。

替代指标的准则可以定义为：若给定任意U=u的条件下替代指标S都是终点指标Y的一个危险因素(或保护因素)，且给定任意U=u的条件下处理X对替代指标S有相同符号的分布因果作用(distributionalcausaleffect,DCE)，则根据X对S的非负（非正）DCE能预测X对Y的非负（非正）平均因果作用(averagecausaleffect,ACE)，并且根据X对S的零DCE能预测X对Y的零ACE。

3.因果网络的可识别性与学习算法

JudeaPearl基于贝叶斯网络提出了外部干预的概念，用外部干预的概念对因果关系给出了一种形式化方法，建立了因果网络模型。因果网络描述多个变量之间相互的因果关系，网络图中每个节点表示一个变量，节点之间的有向箭头表示由原因到结果的因果关系，或者变量之间的数据生成过程。

在因果网络的框架下，研究两类问题：其一是因果作用的可识别性；另一个是因果网络的学习。识别因果作用的目的与潜在结果的因果模型的目的是一致的，即探讨判断混杂因素的准则和研究因果作用的可识别性。因果网络结构学习有两类方法：基于评分的搜索方法和基于条件独立检验的方法。

分解学习方法

针对大规模网络和多个不完全数据库，分解学习方法的思想是：在有变量间条件独立的先验知识情形下可以不必同时观测所有的变量，利用多个不完全变量的数据库，首先各自学习局部网络，然后合并为一个完整的大网络。在“Arecursivemethodforstructurallearningofdirectedacyclicgraphs”一文中，提出了网络结构的递归学习算法，将一个大网络结构学习分解为两个局部小网络的结构学习，然后递归地将每个局部网络的结构学习再分解为更小网络的结构学习。

主动学习方法

研究人员无法从观察数据中区分马尔可夫链中不同的有向无环图，因此必须从外部干预的实验中收集更多关于因果结构的信息。在“Activelearningofcausalnetworkswithinterventionexperimentsandoptimaldesigns”一文中，提出了一种发现因果结构的主动学习方法，首先从观测数据中找到一个马尔可夫等价类，然后通过干预实验分别确定每个链成分中的无向边的方向。

在实验中，一些变量通过外部干预来操纵。最佳干预设计旨在使用最少的干预，确定所有因果方向。基于最小最大准则和最大熵准则，考虑两个最优实验设计：成批干预方法和逐步干预方法，以最小化操纵变量的数量和候选结构的集合。并且从理论上证明了结构学习可以在链组分的子图中局部完成，而不需要检查整个因果网络中不合法的v-结构和循环，并且在每次干预后获得的马尔可夫等价子类仍然可以被描述为链图。

局部学习：MB-by-MB算法

当研究目的是为了寻找和确定某个给定的目标变量的局部因果关系，发现它的原因是什么和结果是什么，或者目的是做干预决策时，研究人员只需利用数据发现该目标变量的局部因果关系，没必要学习整个网络的结构。在“DiscoveringandorientingtheedgesconnectedtoatargetvariableinaDAGviaasequentiallocallearningapproach”一文中，提出了逐步构建目标变量Y的局部网络的方法，称为MB-by-MB(MarkovblanketbyMarkovblanket)算法。

该算法以目标变量Y为中心，逐步向外扩散地构建局部网络结构。首先寻找目标变量Y的Markov边界MB(Y)，构建MB(Y)的局部网络结构;然后再寻找MB(Y)中每个Xi的MB(Xi)，构建MB(Xi)的局部网络结构；重复这个过程直至能够区别谁是Y的原因，谁是Y的结果为止。

局部网络学习与作用的结合

在观察性研究中，研究人员感兴趣的不只是评估总体效果，还要评估治疗变量对反应变量的直接和间接影响。在因果网络的局部结构学习方面，试图找到所有可能的总因果效应和直接因果效应对，这可以进一步用于计算间接因果效应。

一种直观的全局学习方法是首先在表示所有马尔可夫等价因果网络的所有变量上找到一个本质图，然后枚举所有等价网络，并估计每个网络的一对总效应和直接效应。然而，当真正的因果图很大时，学习一个基本图和列举等价网络可能是低效的。

因此，一类局部学习方法被提出：首先在局部学习包含治疗或响应的链组件，然后局部枚举马尔可夫等价类中治疗的父节点和响应的父节点的所有可能配对。为了检查治疗和响应的邻居的任何定向结构的有效性，引入仅依赖于治疗和响应的相邻节点上学习的链组件的子图的局部准则。

1.Geng,Z.,Liu,Y.,Liu,C.C.andMiao,W.(2019)EvaluationofCausalEffectsandLocalStructureLearningofCausalNetworks.Ann.Rev.Statist.&Appl.6,103-124.

2.Liu,Y.,Fang,Z.Y.,He,Y.B.,Geng,Z.andLiu,C.C.(2021)Localcausalnetworklearningforfindingpairsoftotalanddirecteffects.ToappearinJMachLearnRes.

3.He,Y.B.,&Geng,Z.(2008).Activelearningofcausalnetworkswithinterventionexperimentsandoptimaldesigns.JournalofMachineLearningResearch,9(Nov),2523-2547.

4.Jiang,Z.,Ding,P.,&Geng,Z.(2015).Qualitativeevaluationofassociationsbythetransitivityoftheassociationsigns.StatisticaSinica,1065-1079.

5.Wang,C.,Zhou,Y.,Zhao,Q.,&Geng,Z.(2014).DiscoveringandorientingtheedgesconnectedtoatargetvariableinaDAGviaasequentiallocallearningapproach.ComputationalStatistics&DataAnalysis,77,252-266.

6.Xie,X.,&Geng,Z.(2008).Arecursivemethodforstructurallearningofdirectedacyclicgraphs.TheJournalofMachineLearningResearch,9,459-483.

7.Pearl,J.andMackenzie,D.(2018)TheBookofWhy.为什么：关于因果关系的新科学,中信出版集团，中译版，2019

8.苗旺，刘春辰，耿直(2018)因果作用与因果网络.中国科学-数学,48,1753-1778.

直播报名

1.B站直播

2.线下参与（需参加因果读书会，坐标北京，少量名额，先到先得）

THE END

耿直：因果作用评价与因果网络学习及其结合集智俱乐部

人工智能的“主动学习”，不是父母的谆谆教诲，而是数据标注神器数据点算法

耿直：因果作用评价与因果网络学习及其结合集智俱乐部

复旦大学数字医学研究中心通过主动学习技术促进人工智能算法在皮肤癌诊断以及器官分割中的应用

数学建模常用模型及算法范文

架构算法方法论齐备，智能风控峰会完整日程！

科技创新2030—“新一代人工智能”重大项目2021年度项目申报指南

医学图像处理论文15篇

转发：最高年薪150万！还有大学生专场，速看→

儿童骨龄，这份解析图谱！！！！！！！！！

当线性模型遇见机器学习

基于心脏磁共振短轴电影图像的右心室分割新进展

机器学习导论 1. 机器学习概述1.1 机器学习的定义机器学习是一门人工智能的核心分支,它赋予了计算机从数据中自动分析获得模式,并...

简要介绍ActiveLearning(主动学习)思想框架，以及从IF（isolationforest）衍生出来的算法：FBIF（FeedbackGuidedAnomalyDiscovery）郑瀚

基于深度学习的高频雷达射频干扰自动识别与抑制