基于深度学习下的稳定学习究竟是什么？因果学习？迁移学习？|互联网数据服务收入是什么_在线营销

基于深度学习下的稳定学习究竟是什么？因果学习？迁移学习？

机器学习|稳定学习|DGBR

深度学习|迁移学习|因果学习

我们认为，当前人工智能模型在实践利用中存在两个重要问题。一是模型缺乏可解释性；也即人们无法理解模型做出判断的逻辑和原因。这就导致人们面对模型的决策时，只能无条件地完全肯定或否定其提供的答案，我们认为可以通过建立人机协作（humanintheloop）的机制合作决策解决这个问题。第二个问题则是模型缺乏在位置环境下性能的稳定性；目前大多数人工智能模型依赖于iid假设（Independentandidenticallydistributed），即训练数据集和测试数据集的数据分布是相似的；而在实际运用中，无法完全预见可能出现的数据分布（无法了解测试数据集的分布），此时模型的性能无法保证。本文将重点解决模型在未知环境下的性能稳定性问题。

以识别图片中是否存在狗的人工智能应用为例。图中的左图是训练集中包含狗的图片集，其中大多数图片的背景是草地。而在测试集中，模型对同样为草地背景的图片有良好的判断力（右图上）；对非草地背景的图片判断准确度下降（右图中、下）。

人工智能识别图片中的狗任务训练集（左），测试集结果（右）

一、基于本质特征的稳定学习

用于独立性检测的随机傅立叶特征（图左）；StableNet网络与样本权重更新（图右）

1、不均衡的域泛化

2、部分类别缺失的域泛化

3、存在对抗的域泛化

DGBR算法首次解决了二元预测变量(特征)和二元离散响应变量设定下的稳定预测问题。此后，人们提出一系列稳定学习方法以解决不同设置下更稳定的预测问题。但后续设计的稳定学习方法不仅仅局限于因果推理的角度，包括统计学习、优化过程等不同视角，本部分将一一介绍。

二、对抗稳定学习

具体来说，该方法就是采用了Wasserstein分布式鲁棒学习（Wassersteindistributionallyrobustlearning,WDRL）的框架。根据协变量在多个环境中的稳定性，进一步将不确定性集表征为各向异性，这会给不稳定协变量带来比稳定协变量更强的对抗性扰动。并且设计了一种协同算法来联合优化协变量的微分过程以及模型参数的对抗训练过程。

在实验中，将SAL算法与经验风险最小化(EmpiricalRiskMinimization,ERM)框架、Wasserstein分布式鲁棒学习(Wassersteindistributionallyrobustlearning,WDRL)框架、不变风险最小化(InvariantRiskMinimization,IRM)框架进行比较：

实验结果表明，SAL算法各向异性地考虑每个协变量以获得更真实的鲁棒性。此外，构造了一个更好的不确定集，在不同的分布的数据上取得了一致更好的表现，验证了算法的有效性。

三、异质性风险最小化

整体框架如图所示。该框架包含两个模块，用于异质性识别的前端和用于不变预测的后端Mp。给定异质性数据，从异质性识别模块Mc出发，用学习变量ψ(x)表示异质性环境εlearn。然后，分布外一般化预测模块Mp使用所学习的环境来学习MIPφ(x)和不变预测模型F(φ(x))。之后，我们推导出变型ψ(x)来进一步增强模Mc。至于“转换”步骤，基于我们的设置，我们在这项工作中采用了特征选择，通过它可以在学习更多不变特征时获得更多的变异特征。

HRM是一种优化框架，可实现数据和不变预测器之间潜在异质性的联合学习。尽管分布发生变化，在该框架下仍具有更好的泛化能力。

为了验证该框架的有效性，崔鹏老师团队将HRM框架与经验风险最小化(EmpiricalRiskMinimization,ERM)框架、分布鲁棒优化(DistributionallyRobustOptimization,DRO)框架、不变学习的环境推理(EnvironmentInferenceforInvariantLearning,EIIL)框架、具有环境εtr标签的不变风险最小化(IRM)框架进行比较。

实验表明，与基线方法相比，HRM在平均性能和稳定性方面取得了近乎完美的表现，尤其是跨环境损失的方差接近于0。此外，HRM不需要环境标签，这验证了我们的聚类算法可以挖掘数据内部潜在的异质性。

继续进行了三个真实场景的预测，包括汽车保险预测、人们收入预测和房价预测。

从实验结果可以看出，在所有任务和几乎所有测试环境中，HRM始终保持最佳性能。HRM可以有效地揭示和充分利用训练数据的内在异质性进行不变学习。HRM放宽了对环境标签的要求，为不变学习开辟了新的方向。它能够涵盖广泛的应用，例如医疗保健、金融、营销等。

四、稳定学习的理论解释

协变量偏移泛化是分布外泛化(OOD)中的典型案例，它要求在未知测试分布上具有良好的性能，并且该测试分布与训练分布差距体现在协变量迁移上。在涉及回归算法和深度神经网络的几种学习模型上，稳定的学习算法在处理协变量移位泛化方面已经显示出一定的有效性。崔鹏老师团队通过将稳定学习算法解释为特征选择的过程，向理论分析迈进了一步。

具体是这样的，首先定义一组变量，称为最小稳定变量集（minimalstablevariableset），它是处理常见损失函数（包括均方损失和二元交叉熵损失）下的协变量迁移泛化的最小且最优的变量集合。然后证明了在理想条件下，稳定的学习算法可以识别出这个集合中的变量。这些理论阐明了为什么稳定学习适用于协变量迁移泛化。

典型稳定学习算法的框架如图所示。该算法通常包括两个步骤，分别是重要性采样和加权最小二乘。在理想条件下，稳定学习算法可以识别最小稳定变量集，这是可以在协变量偏移下提供良好预测的最小变量集。

与马尔可夫边界相比，最小稳定变量集可以带来两个优势：

①条件独立性检验是精确发现马尔可夫边界的关键。

②在几个常见的机器学习任务中，包括回归和二元分类，并不是所有的变量都在马尔可夫边界。最小稳定变量集被证明是马尔可夫边界的子集，它排除了马尔可夫边界中无用的变量，用于协变量移位泛化。

一、图上的稳定学习

1、具有选择性偏差的多个环境中学习稳定图

如今，图已成为一种通用且强大的表示，通过其结构中编码的底层模式来描述不同类型实体之间的丰富关系。然而，图生成的数据收集过程充满了已知或未知的样本选择性偏差，尤其是在非平稳和异构的环境中，实体之间会存在虚假关联。针对从具有选择性偏差的多个环境中学习稳定图的问题，崔鹏老师团队设计了一个无监督的稳定图学习(StableGraphLearning,SGL)框架，用于从集合数据中学习稳定图，该框架由GCN(GraphConvolutionalNetworks)模块和针对高维稀疏集合数据的E-VAE(element-wiseVAE)模块组成。

稳定图学习的过程图解

在模拟实验中，如图所示，在几乎所有的实验中，SGL框架的性能要稳定得多，特别是当两个环境之间的差异更显着时，它比所有基线方法都达到更高的平均准确度。

而相应地，在真实实验里，崔鹏老师团队研究了商品推荐的常见实际应用中的稳定图结构问题。

2、具有不可知分布偏移的图的稳定预测

图神经网络(GraphNeuralNetworks,GNNs)已被证明在具有随机分离的训练和测试数据的各种图任务上是有效的。然而，在实际应用中，训练图的分布可能与测试图的分布不同。此外，在训练GNNs时，测试数据的分布始终是不可知的。因此，大家面临着图学习训练和测试之间的不可知分布转变，这将导致传统GNNs在不同测试环境中的推理不稳定。

为了解决这个问题，浙江大学况琨老师团队提出了一种新的GNNs稳定预测框架，它允许在图上进行局部和全局稳定的学习和预测,可以减少异构环境中的训练损失，从而使GNNs能够很好地泛化。换句话说，是为GNNs设计了一种新的稳定预测框架，该框架能捕获每个节点的稳定属性，在此基础上学习节点表示并进行预测（局部稳定），并规范GNNs在异构环境中的训练（全局稳定）。该方法的本质如图所示。

由两个基本组成部分组成，即在每个目标节点的表示学习中捕获跨环境稳定的属性的局部稳定学习，以及显式平衡不同训练的全局稳定学习环境。

在图基准实验中，浙江大学况琨老师团队使用OGB数据集和传统基准Citeseer数据集，构建两层GCN和GAT。所有其他方法（包括我们的方法）也包含两个图形层以进行公平比较。OGBarxiv的所有方法的隐藏层神经节点个数为250，Citeseer的隐藏层神经节点个数为64，学习率为0.002。

稳定预测框架有着更稳定的实验结果。当测试分布与训练分布的差异更大时，大多数GNNs会遭受分布变化并且产生较差的性能（例如，图a的右侧）。尽管稳定预测框架在分布更接近训练的测试环境中牺牲了一些性能（例如，图a的左侧），但获得了显着更高的Average_Score和更低的Stability_Error。

在Citeseer数据集上的测试结果

为了证明稳定预测框架在实际应用中的有效性，浙江大学况琨老师团队收集真实世界的嘈杂数据集，对推荐系统的用户-项目二分图进行了实验。实验结果表明，稳定预测框架比其他基线方法取得了明显更稳定的结果。

二、深度神经网络中的稳定学习

为了涵盖更普遍和更具挑战性的分布变化案例，崔鹏老师团队在实验中采用如下四种设置：非平衡、灵活、对抗、经典。在不同的实验设置下，StableNet都能不同程度得优于其他方法。

在消融研究中，通过随机选择用于计算具有不同比率的依赖关系的特征来进一步降低特征维度。下图显示了具有不同维度随机傅里叶特征的实验结果。

三、稳定学习与公平性

如今，公平问题已经成为了决策系统中的重要问题。已经有很多学者提出了各种公平的概念来衡量算法的不公平程度。珀尔研究了伯克利大学研究生入学性别偏见的案例。数据显示，总体而言，男性申请人的入学率较高，但在研究院系选择时，结果有所不同。由院系选择引起的偏差应该被认为是公平的，但传统的群体公平观念由于没有考虑院系选择而无法判断公平。受此启发，基于因果关系的公平理念应运而生。在这些论文中，作者首先假设了特征之间的因果图，然后，他们可以将敏感属性对结果的不公平因果效应定义为一个度量。然而，这些公平性概念需要非常有力的假设，而且它们不可扩展。在实践中，经常存在一组我们称之为公平变量的变量，它们是决策前的协变量，例如用户的选择。

公平变量并不会影响评估决策支持算法的公平性。因此，崔鹏老师团队通过设置公平变量将条件公平定义为更合理的公平度量。通过选取不同的公平变量，崔鹏老师团队证明了传统的公平概念，例如统计公平和机会均等，是条件公平符号的特例。并且提出了一种可求导的条件公平正则化器（DerivableConditionalFairnessRegularizer,DCFR），它可以集成到任何决策模型中，以跟踪算法决策的精度和公平性之间的权衡。

为了公平比较，在实验中，选择也使用对抗性表示学习的方法来解决问题的公平优化算法作对照。有UNFAIR、ALFR、CFAIR和LAFTR，以及它的变体LAFTR-DP和LAFTR-EO。

各种数据集（从上到下依次为收入数据集、荷兰人口普查数据集、COMPAS数据集）上不同公平性指标（从左到右依次为Δ、Δ、Δ）的准确性-公平性权衡曲线。DCFR以粗线显示。

很明显，在实验中DCFR更有优势，在准确性和公平性上达到更好的权衡效果。对于统计公平和机会均等任务，DCFR的退化变体能有与专为这些任务设计的最先进基线方法相当的性能，有时甚至还能有更好的结果。综上所述，DCFR在真实数据集上非常有效，并在条件公平目标上取得了良好的性能。并且随着公平变量的数量增加，其表现会更好。

四、稳定学习与领域自适应

稳定学习最初的定义是不需要目标域信息的，这里的领域自适应是一种利用了目标域信息的做法，可以理解为拓展了最初的稳定学习的含义。

为了验证该框架的有效性，亚利桑那州立大学（ArizonaStateUniversity，ASU）刘欢老师团队将ResNet-50、DDC、DAN、DeepCORAL、DANN、HAFN设置为对照方法来进行实验。

在实验中，DCDAN在许多情况下优于基线方法，结果表明DCDAN可以执行无监督的域自适应，显示了它在学习因果表示方面的有效性。而且这还验证了因果特征表示有助于学习跨域的可迁移特征，进一步证实了因果损失和分类损失之间的良好权衡可以导致学习更多可转移的特征。

一、清华大学崔鹏：关于分部外泛化和稳定学习的一些思考

原则上说，我们测试时的数据分布是未知的，为了对其进行优化，传统的机器学习方法认为训练数据和测试数据满足独立同分布假设，从而对问题进行简化，使我们可以在训练数据分布下搜索带有参数θ的函数f。

根据测试时数据分布的不同，分布外学习问题衍生出了两条技术路径：

（1）分布外域自适应：测试数据（目标域）部分已知，基于域自适应/迁移学习技术，将利用训练数据（源域）得到的模型适配到不同的数据分布（目标域）下

（2）分布外泛化：测试数据分布完全未知。

在传统的独立同分布学习场景下，模型泛化是一种内插（Interpolation）泛化，在分布外学习场景下，模型泛化则指的是外推（Extrapolation）。

如上图所示，在独立同分布场景下，如果参数量太少，则模型对数据欠拟合；若参数量过多，则模型可能对数据过拟合。论文「DirectFittoNature：AnEvolutionaryPerspectiveonBiologicalandArtificialNeuralNetworks」的作者认为，过参数化的深度学习网络之所以具有较好的泛化能力，可能是由于模型用类似折线的形式直接对数据点进行了拟合。

如果我们直观测到整体中很小的一部分数据，就需要对未观测到的数据进行外推。传统上，我们需要进行精巧的实验设计，基于小量的观测数据推理出分布外的情况。在这一过程中，我们会引入大量人类总结出的一些通用规律，从而实现数据的外推。

正所谓「以不变应万变」，「不变性」（invariance）是实现外推的基础。例如：牛顿观察到苹果从树上落下，从而推导出万有引力定律，进而可以将这一规律外推到其它物体的运动上。

（1）因果推理

（2）从变化中寻找不变性

1、因果推理

为了将不变性适配到学习框架中，我们要研究多个输入变量对输出变量预测性的影响。在稳定学习框架下，我们试图找到一组合适的样本权重，进行样本重加权后再通过输入变量对输出变量进行回归，此时的回归系数即为满足因果关系的回归系数。通过上述方式训练出的模型具有OOD的泛化能力。

2、从变化中寻找不变性

变化与不变性是对立统一的。在机器学习场景下，数据中的「变化」指的是训练数据中存在的异质性（例如，图像背景的不同、物体品类的不同）。然而，我们无法手动定义这种数据的异质性，因为我们无法保证数据在所有的特征维度上都满足不变性约束。

因此，一种可行的方式是从潜在的异质性中寻找不变性。我们假设环境是未知的，存在一定的异质性。在这种情况下，我们首先需要发现数据中的异质性，再根据数据的异质性发现其中的不变性，接着我们还可以反过来利用不变性提升对变化部分（异质性）的学习效果，这一过程将一直迭代下去。

3、稳定学习的定位

在稳定学习框架下，我们利用一个异质的数据分布学习模型，希望将学习到的模型应用到一系列未知数据集上时具有一定的性能保证。除了通过实验证明此类模型的有效性，我们还希望为其发展出理论的支撑。

我们具体来讨论深度稳定学习，比如我的训练图片中是很多狗都在草地上，然后少量的狗在其他背景上时，那么它需要能及及时分辨出草地上的狗，通常这个模型可以给出比较准确的预测。但是当给到一个他建的比较少的背景，他可能就会不一定给出一个准确的预测，但大部分可能还可以给出类似的预测，但是当它出现了一个他完全没有见过的背景的时候，这个模型很有可能就给出一个错误的预测。所以说这种分布偏移的问题，会给现在的深度网络带来很大的挑战。

对于当下基于独立同分布假设开发的深度学习网络而言，若训练数据和测试数据分布不一致时，模型的泛化性能将会较差。如上图所示，假设训练集包含大量背景为草地的狗，如果在测试时面对一张站在草地上的狗的图片，网络一般可以准确地对图片进行预测；然而，如果测试图片中的背景在训练集中出现地较少或从未出现，则网络的预测效果很可能较差。这种分布偏移问题是当前的深度学习网络面临的重大挑战之一。

具体而言，我们采用全局平衡（GlobalBalancing）方法提取因果特征。给定任意的干预（treatment），我们对训练样本进行加权，从而消除各类特征之间的统计关联性，断开背景与因果特征之间的关联，最终找到更加具有因果关系的特征，实现更加稳定的预测。

此外，原始的全局重加权方法需要对所有的样本进行操作。然而，在深度学习场景下，训练样本量一般非常大，我们无法对全局样本进行加权。为此，我们提出了一种预存储的方式，将网络之前见过的特征和样本权重存储下来，进而在新的一轮训练中结合当前的特征进行重加权。

StableNet的网络架构如上图如所示。网络架构有两个分支，下面的分支为基本的图像分类网络，上面的分支是对样本进行RFF映射后再进行重加权的过程。我们可以将两个分支分离开来，从而将StableNet插入到任何深度学习架构中。

目前，在计算机视觉领域的域泛化任务中，我们往往假设训练数据中的异质性十分显著，且各个域的样本容量相当。这在一定程度上限制了在CV领域中对OOD泛化方法进行验证。

本文作者基于PACS和VLCS两个数据集构建了各个图片域数量不平衡的实验环境，有一些图片域占据主导地位，具有更强的虚假关联。在该设定下，StableNet相较于对比基线具有最佳的泛化性能。

在更加灵活的OOD泛化场景下，不同类别的图像所处的域可能不同。在该场景下，StableNet的性能仍优于所有的对比基线。

在对抗性OOD泛化场景下，域和标签的虚假关联很强（例如，训练集中的大部分数字1的颜色为绿色，数字2为黄色；在测试时两种数字的颜色与训练集中相反）。StableNet在几乎所有的实验设定下都超过了现有的方法。

三、浙江大学况琨：通过工具变量回归实现因果泛化

1、因果关系与稳定学习

现有的机器学习算法之所以不稳定，是因为这些算法是关联驱动的，而数据中存在大量的偏差，可能会导致模型提取出一些非因果关系的特征（虚假关联），从而导致模型不可解释、不稳定。为此，我们试图恢复出每个特征变量和标签Y之间的因果关系，从而找出因果特征。

2018年，崔鹏老师、况琨老师等人提出了因果正则化技术，通过学习到全局权重使得变量之间相互独立，通过将该技术应用到逻辑回归、浅层深度网络等模型上，可以取得一定的性能提升。这种寻找因果关系的过程要求我们能够观测到所有的特征，然而有时一些因果特征是我们无法观测到的。

2、工具变量回归

在使用原始的工具变量回归方法时，我们往往需要预先定义一个工具变量。在论文「AutoIV：CounterfactualPredictionviaAutomaticInstrumentalVariableDecomposition」中，况琨博士等人在给定干预T，输出结果Y，观测到的混淆因子X，未观测到的混淆因子U的情况下，从观测到的混淆因子X中解耦出工具变量。尽管分理出的工具变量可能不具备明确的物理意义，但是它满足前文提到的工具变量所需要满足的三个属性。这样生成的工具变量可以帮助我们估计T和Y之间的关系。具体而言，我们通过互信息判断特征之间的条件独立性，以及表征学习实现解耦操作。

3、通过工具变量回归实现因果泛化

工具变量回归可以被用于域泛化、不变因果预测、因果迁移学习等任务中。以域泛化为例，给定来自不同观测环境中的数据，该任务旨在利用给定的X预测Y。我们希望从多个数据域（环境）中学习不变性，使得预测模型对于所有可能的环境都鲁棒。

在通过工具变量回归解决域泛化问题时，首先，我们通过因果图刻画各个域中数据的生成过程（DGP）。对于域m，在生成样本数据X时，除了样本的域不变性特征之外，还可能受到域特定特征（例如，光照、天气）的影响；在为样本打标签时，标注者除了会考虑图片样本特征，也会受到域特定特征的影响。

在具体的求解过程中，我们首先通过工具变量回归，即估计。接着，我们利用近似出的和学习不变性函数。值得注意的是，在通过工具变量进行域泛化时，我们只需要一个域中的标签Y，以及其它域中的无标签数据X。

四、清华大学刘家硕：从异质性数据到分布外泛化

1、分布外泛化的背景

如上图所示，当训练数据分布与测试数据分布一致时，若使用ERM算法进行优化，模型的泛化性能是有理论保证的。然而，如果数据的分布出现了偏移，则ERM算法的得到的模型的泛化性能可能较差。

因此，我们应该充分考虑数据的异质性，设计更加合理的风险最小化方法，为不同的样本点施加合适的权重，使得模型对多数群体和少数群体都有较好的预测能力，从而提升模型的泛化性能。

2、异质性风险最小化

要想找到上述不变特征，我们需要对环境有很强的约束。现有的许多不变性学习方法都会针对从多个环境中寻找符合上述性质的特征。然而，在真实情况下，许多数据集是收集自多个不同数据源的混合数据，我们往往很难为环境保留明确且对模型学习真正有效的标签。

接着，我们将异质性风险最小化问题定义为：给定存在异质性的混合数据集D，在缺乏环境标签的条件下，旨在学习到不变性特征的集合，使模型具有更好的OOD泛化能力。

如上图所示，HRM算法框架包含以下两个模块：

3、核异质风险最小化

HRM算法无法处理复杂的数据（例如，图片、文本）。在KerHRM中，刘家硕博士等人将HRM算法拓展至更加复杂的数据类型上。

在HRM算法流程的基础之上，刘家硕博士等人在KerHRM中引入了神经正切核（NTK）。根据NTK理论，神经网络（例如，MLP）的操作等价于在复杂的特征空间中进行线性回归。

通过上述方式，我们可以将HRM应用到较为复杂的数据上，同时保留HRM框架的特性。KerHRM通过构造一组正交的核区分数据中稳定和不稳定的部分。

4、仿真实验：ColoredMNIST

本文作者采用与论文「InvariantRiskMinimization」中相同的实验设定，测试了KerHRM方法在ColoredMNIST数据集上的性能。在该实验环境下，作者将MNIST中0-4的数字标记为「0」类，将「5-9」的数字标记为「1」类，从而将十分类问题改造为了二分类问题。接着，作者将「0」类中大部分的图片染成某种颜色，将「1」类中大部分的图片染成另一种颜色，从而构建了数字标签和颜色之间的虚假关联。在测试时，我们将图片的染色情况翻转过来，此时传统的机器学习模型的性能往往会大幅下降。

五、清华大学何玥：分布外泛化图像数据集——NICO

1、非独立同分布图像分类

图像分类是计算机视觉领域中最基础、最重要的任务之一。在传统的独立同分布假设下，通过最小化训练集上的经验损失，现有的深度学习模型已经可以在测试时达到很好的预测性能。然而，在真实情况下采集到的数据集很难满足独立同分布假设，训练集几乎不可能覆盖所有的测试样本中的数据分布情况。此时，如果我们依然通过最小化模型在训练集上的经验损失来优化模型，往往会导致模型在测试时的性能严重下降。

如上图所示，训练数据和测试数据中猫和狗所处的背景差异很大，并不满足独立同分布假设，深度学习模型可能会错误地将背景当做对图片进行分类的标准。而人类对此类分类问题则天然地具有很强的泛化能力，好的分类模型也应该对这种背景分布的变化不敏感。

我们将该问题称为非独立同分布的图像分类问题，其中训练集和测试集中的数据分布不同。此类问题包含两种子任务：

（1）TargetedNon-I.I.D图像分类：测试集中的部分信息已知，我们可以借助迁移学习等方法将当前训练好的模型迁移到目标域的数据分布上，实现较好的预测性能

（2）GeneralNon-I.I.D图像分类：利用不变性等机制，将学习到的模型以较高准确率泛化到任意未知数据分布上。

实际上，非独立同分布场景下的学习问题对计算机视觉任务十分重要。在自动驾驶、自动救援等场景下，我们希望模型能够迅速识别不常见但非常危险的情况。

2、衡量数据分布差异

为了刻画分布之间的差异，我们定义了一种名为「NI」的指标。在计算NI的过程中，我们利用预训练好的通用视觉模型提取图像特征，然后在特征层面上计算两个分布之间的一阶矩距离，并采用分布的方差进行归一化。大量实验证明，NI对图像分布差异的描述是较为鲁棒的。此外，在有限采样的情况下，数据分布偏差无处不在，随着数据分布偏差变强，分类模型的错误率也不断提升。

实际上，分布偏移现象广泛的存在PASCALVOC、ImageNet、MSCOCO等标杆数据集中。以ImageNet为例，我们首先选取了10个常见的动物类别，然后针对每类动物选取不同的子类，形成了不同的三个数据集A、B、C。

接着，我们采集了一些固定的测试样本。通过测量NI，我们发现不同的数据集存在数据分布偏差，但是这种偏差较弱，且这种数据偏差不可控，分布偏差的大小随机。为了推动OOD泛化在视觉领域的研究，我们构建了存在明显的数据分布偏差，且偏差可调节的视觉数据集——NICO。

3、NICO数据集

首先，我们考虑从图片中分解出主体和上下文的视觉概念。如上图所示，主体可能为猫或狗，上下文可能为主体的姿态、背景、颜色等概念。通过在训练和测试中组合不同的主体和上下文，我们可以形成数据分布的差异。

上下文概念来自于真实世界，我们可以从很多角度描述上下文，进而描述一种有偏的数据分布。当上下文和主体的组合有意义时，我们可以很容易地收集到足够多的图像。

目前公开的NICO数据集具有如上图所示的层次结构。动物和交通工具两个超类包含9-10个主体类别，每个主体类别拥有一系列上下文概念。我们希望上下文尽可能多样，且主体与上下文的组合有意义，各个上下文之间有一定的重叠。此外，我们要求每类主体和上下文组合的样本数量尽可能均衡，不同上下文之间的差异尽可能大。

和独立同分布的经典数据集相比，由于NICO引入了上下文概念，且图像是非中心化、非规则的，所以NICO数据集上的图像分类任务更加具有挑战性。

面对有限样本，无论如何采样都会产生一定程度的数据分布偏差，这是由图像本身的性质，以及采样规模的差异造成的。在NICO数据集中，我们通过随机采样的方式模拟近似独立同分布的场景。与ImageNet数据集相比，确实NICO引入了非中心化性质/上下文概念，其识别任务更加困难。

4、OOD泛化——比例偏差

当测试数据和训练数据分布存在「比例偏差」时，我们要求训练集和测试集数据都包含所有类别上下文，但是我们在训练和测试中选择不同的上下文作为主导上下文（在整采集的图像中占比较高）。通过在训练和测试中设置不同的主导上下文，我们可以自然地形成数据分布的差异。

在这里，我们还定义了「主导率」（DominantRatio）指标来刻画具有主导上下文的样本量具有其它上下文的样本量的比例。如上图所示，随着主导率的提升，训练和测试数据之间的分布差异越来越大，对模型准确率的影响也越来越大，

5、OOD泛化——成分偏差

「成分偏差」模拟了我们在训练数据、测试数据采样时的时空限制。在该设定下，训练集并不包含所有类别的上下文，有一些测试集中的上下文是训练中未曾见过的。随着训练集包含上下文的种类减少，测试集和训练集的数据分布差异递增，模型学习的效果也越来越差。

为了实现更大的数据分布偏差，我们还可以组合成分偏差和比例偏差。我们可以要求某些类别上下文在训练集包含的上下文中占据主导地位，即通过同时调节训练集可见上下文的数量和主导率控制数据分布偏差的程度，进而观察模型在不同数据偏差场景下表现出的性能。

6、OOD泛化——对抗攻击

在「对抗偏差」场景下，我们选择某些类样本作为正类，其它类别的样本作为负类。接着，我们定义某种上下文只出现在训练集的正类中，以及测试集的负类中。此时，模型就会错误地将该上下文与正类联系到一起，从而在测试时取得较差的性能。我们将这种上下文称为混淆上下文，随着混淆上下文比例的增加，模型对正类的学习越来越容易受到虚假关联的影响。

蓝海大脑面向广大深度学习、机器学习、因果学习研究者、AI开发者和数据科学家提出稳定学习液冷解决方案，通过软硬件一体式交付，提供数据标注、模型生成、模型训练、模型推理服务部署的端到端能力，降低使用AI的技术门槛，让客户更聚焦业务本身，使AI业务能快速开发与上线。

该方案提供一站式深度学习平台服务，内置大量优化的网络模型算法，以便捷、高效的方式帮助用户轻松使用深度学习技术，通过灵活调度按需服务化方式提供模型训练、评估与预测。

一、优势特点

1、节能性更优

整体机房空调系统能耗降低70%；服务器风扇功耗降低70%~80%；液冷系统可实现全年自然冷却，PUE<1.1，整体机房风液混合冷却系统PUE<1.2

2、器件可靠性更高

CPU满载运行核温约40-50℃，比风冷降低约30℃；服务器系统温度比风冷降低约20℃

3、性能更优

CPU和内存工作温度大幅降低，可实现超频运行，计算集群性能可提高5%

4、噪声更低

液冷散热部分水循环噪音极低，风冷部分风扇转速降低，噪音减小，降低约30dB，满载运行噪音<60dB

5、率密度提升

单机柜功率密度可达25kW以上，相比风冷散热方式大幅提升

二、液冷服务器架构

超融合架构承担着计算资源池和分布式存储资源池的作用，极大地简化了数据中心的基础架构，通过软件定义的计算资源虚拟化和分布式存储架构实现无单点故障、无单点瓶颈、弹性扩展、性能线性增长等能力。通过简单方便的统一管理界面，实现对数据中心计算、存储、网络、虚拟化等资源的统一监控、管理和运维。

超融合基础架构形成的计算资源池和存储资源池直接可以被云计算平台进行调配，服务于OpenStack、EDP、Docker、Hadoop、HPC等IaaS、PaaS、SaaS平台，对上层的应用系统或应用集群等进行支撑。同时，分布式存储架构简化容灾方式，实现同城数据双活和异地容灾。现有的超融合基础架构可以延伸到公有云，可以轻松将私有云业务迁到公有云服务。

三、客户收益

1、节约能源

原有数电力使用成本在总体拥有成本TCO中占比最大。实现IT设备按需供电与制冷，让供电和制冷系统的容量与负载需求更为匹配，从而提高了工作效率并减少过度配置。

2、运维监管

帮助客户实现数据中心多层级、精细化能耗管理，通过多种报表确定能源额外损耗点，实现节能降耗。资产管理帮助用户制定资产维护计划，实现主动预警，动态调整维护计划，按照实际情况输出优化方案，构建最佳资产管理功能。

THE END

基于深度学习下的稳定学习究竟是什么？因果学习？迁移学习？

前10个月我国软件业务收入同比增长11.0%权威发布

基于深度学习下的稳定学习究竟是什么？因果学习？迁移学习？

数据治理新要求

打印邬贺铨：大数据驱动与互联网思维

去年底刚履新的他亮相部长通道！第二场“部长通道”速览→

去年底刚履新的他亮相部长通道！第二场“部长通道”速览→

2019年18月我国互联网和相关服务业保持平稳发展态势信息服务收入占比最大

中国税务报网络报