大数据图数据库之离线挖掘计算模型|数据挖掘过程图_在线学习

本节将常见的计算模型分为两类，一类是图编程模型，另一类是图计算范型。编程模型更多地面向图计算系统的应用开发者，而计算范型则是图计算系统开发者需要关心的问题。在本节中，关于编程模型，主要介绍以节点为中心的编程模型及其改进版本的GAS编程模型；关于计算范型，则重点介绍同步执行模型和异步执行模型。这几类模型已经被广泛采用在目前的大规模图挖掘系统中。

14.4.1以节点为中心的编程模型

以节点为中心的编程模型（Vertex-CenteredProgrammingModel）首先由Pregel系统提出，之后的绝大多数离线挖掘类大规模图计算系统都采用这个模型作为编程模型。

典型的图节点更新函数Function(vertex)基本遵循如下逻辑。

即首先从vertex的入边和出边收集信息，对这些信息经过针对节点权值的函数f()变换后，将计算得到的值更新vertex的权值，之后以节点的新权值和边原先的权值作为输入，通过针对边的函数g()进行变换，变换后的值用来依次更新边的权值。通过vertex的节点更新函数，来达到更新部分图状态的目的。

14.4.2GAS编程模型

GAS模型可以看作是对以节点为中心的图计算编程模型的一种细粒度改造，通过将计算过程进一步细分来增加计算并发性。GAS模型明确地将以节点为中心的图计算模型的节点更新函数Function(Vertex)划分为三个连续的处理阶段：信息收集阶段（Gather）、应用阶段（Apply）和分发阶段（Scatter）。通过这种明确的计算阶段划分，可以使原先的一个完整计算流程细分，这样在计算过程中可以将各个子处理阶段并发执行来进一步增加系统的并发处理性能。

这里假设当前要进行计算的节点是u，并以此为基础来说明GAS模型。

在信息收集阶段，将u节点的所有邻接节点和相连的边上的信息通过一个通用累加函数收集起来：

通过以上三个阶段的操作，可以定义以图节点为中心的高度抽象的GAS计算模型。在GAS模型中，节点的入边和出边在信息收集和分发阶段如何使用取决于具体的应用，比如，在PageRank计算中，信息收集阶段只考虑入边信息，分发阶段只考虑出边信息，但是在类似于Facebook的社交关系图中，如果边表达的语义是朋友关系，那么在信息收集和分发阶段则是所有边的信息都会纳入计算范围。

14.4.3同步执行模型

同步执行模型是相对于异步执行模型而言的。我们知道，图计算往往需要经过多轮迭代过程，在以节点为中心的图编程模型下，在每轮迭代过程中对图节点会调用用户自定义函数Function(vertex)，这个函数会更改vertex节点及其对应边的状态，如果节点的这种状态变化在本轮迭代过程中就可以被其他节点看到并使用，也就是说变化立即可见，那么这种模式被称为异步执行模型；如果所有的状态变化只有等到下一轮迭代才可见并允许使用，那么这种模式被称为同步执行模型。采用同步执行模型的系统在迭代过程中或者连续两轮迭代过程之间往往存在一个同步点，同步点的目的在于保证每个节点都已经接受到本轮迭代更新后的状态信息，以保证可以进入下一轮的迭代过程。

14.4.4异步执行模型

异步执行模型相对于同步执行模型而言，因为不需要进行数据同步，而且更新的数据能够在本轮迭代即可被使用，所以算法收敛速度快，系统吞吐量和执行效率都要明显高于同步模型。但是异步模型也有相应的缺点：其很难推断程序的正确性。因为其数据更新立即生效，所以节点的不同执行顺序很可能会导致不同的运行结果，尤其是对图节点并发更新计算的时候，还可能产生争用状况（RaceCondition）和数据不一致的问题，所以其在系统实现的时候必须考虑如何避免这些问题，系统实现机制较同步模型复杂。

在讲解异步模型的数据一致性问题前，先来了解一下GraphLab论文提出的图节点的作用域（Scope）概念。对于图G中的某个节点v来说，其作用域Sv包括：节点v本身、与节点v关联的所有边，以及节点v的所有邻接图节点。之所以定义图节点的作用域，是因为在以节点为中心的编程模型中，作用域体现了节点更新函数f(v)能够涉及的图对象范围及与其绑定的数据。

在并发的异步执行模型下，可以定义三类不同强度的数据一致性条件（见图14-12），根据其一致性限制条件的强度，由强到弱分别为：完全一致性（FullConsistency）、边一致性（EdgeConsistency）和节点一致性（VertexConsistency）。

完全一致性的含义是：在节点v的节点更新函数f(v)执行期间，保证不会有其他更新函数去读写或者更改节点v的作用域Sv内图对象的数据。因此，满足完全一致性条件的情形下，并行计算只允许出现在无公共邻接点的图节点之间，因为如果两个图节点有公共邻接图节点，那么两者的作用域必有交集，若两者并发执行，可能会发生争用状况，而这违反了完全一致性的定义。

比完全一致性稍弱些的是边一致性条件，其含义为：在节点v的节点更新函数f(v)执行期间，保证不会有其他更新函数去读写或者更改节点v，以及与其邻接的所有边的数据。即与完全一致性条件相比，放松了条件，允许读写与节点v邻接的其他图节点的数据。在满足边一致性条件下，并行计算允许出现在无公共边的图节点之间，因为只要两个节点u和v不存在共享边，则一定会满足边一致性条件。

更弱一些的是节点一致性，其含义为：在节点v的节点更新函数f(v)执行期间，保证不会有其他更新函数去读写或者更改节点v的数据。很明显，最弱的节点一致性能够允许最大程度的并发，之所以说其限制条件较弱，是因为除非应用逻辑可以保证节点更新函数f(v)只读写节点本身的数据，否则很易发生争用状况，使得程序运行结果不一致。

如果对所有可能的并发执行顺序总是存在与序列执行完全一致的执行结果，在此种情形下，我们可以将这个并发程序称为是满足序列一致性的。

是否满足序列一致性可以帮助我们验证将一个顺序执行的程序改造为并行执行程序后的正确性。在并行的异步图计算环境下，以下三种情形是可以满足序列一致性的。

情形一：满足完全一致性条件。

情形二：满足边一致性条件，并且节点更新函数f(v)不会修改邻接节点的数据。

情形三：满足节点一致性条件，并且节点更新函数f(v)只会读写节点本身的数据。

上面三种情形可供应用者在设计算法时参考，以在并发性和结果正确性之间做好权衡：一致性条件越弱，则并发能力越强，但是争用状况发生概率越高，即结果可能越难保障正确性。如果应用能够明确节点更新函数的数据涉及范围，就可以根据上述几种情形来进行选择，更好地做到在保证结果正确性的前提下提高并发性能。

THE END

大数据图数据库之离线挖掘计算模型

深层时态主动推理的因子图描述2017高斯算法贝叶斯

CDALEVELⅡ?数据分析师考试?纲

物流规划方案范文

世界首例！Nature公布最新成果，助力药物研发冲破困境，彻底改写历史！点击上方的行舟Drug ▲ 添加关注在现代医疗领域,药物发现一直是最具挑战性和最昂贵的过程之一。传统的药物开发方法耗...

数据可视化在电视新闻中的运用传媒

蚂蚁金服OceanBase冯柯：自研技术这条路很难，但我们会坚持走下去

物联网嵌入式实训室解决方案

知识图谱构建的研究已走入下半场，但大规模落地应用仍需时间图谱构建研究实体推理数据

大数据图数据库之离线挖掘计算模型