在过去的几十年,人类掀起了网络研究的热潮,其中包括经验主义的学习,开发数学和计算工具以用来提出网络中的数据。研究网络的一个普遍方法是着重分析单个或某一小组顶点的属性,在研究过程中往往会提出一些“这个网络中最重要的顶点是哪个?”“哪些是强连接?”等诸如此类的问题。然而,这些方法用在大规模网络结构分析的时候,能够得到的有用信息却很少,为此,本文对大规模网络做一些深入的讨论。
1网络模块化和社团结构的概念
社团之所以会引起人们的兴趣,主要可以归结为几个原因。首先,寻找结构与功能的联系已经成为网络研究领域中的一个热点,而社团结构在本质上对应于网络系统中的功能模块。举例来说,在新陈代谢网中,如果把生物体内的全部有序化学变化看成一个网络,那么,社团就对应于特定的化学反应(如将外界引入的营养物质转变为自身需要的结构元件。在社会网络中,社团与我们传统观念中的真实社团意思相近,比如一组有共同爱好的人、有共同居所、共同工作环境或一家人都可以看作一个社团。社团给人一种“物以类聚,人以群分”的感觉。
除了上述本质原因外,还有一个容易忽略的原因,那就是人们经常会问为什么社团结构那么重要呢?在许多网络中都发现了一个问题,那就是社团之间的属性有明显的不同。同时,我们也注意到,不同社团的结构特征是有变化的。这些属性对于了解系统具有重要意义,只有在社团结构层次上了解了系统的架构,这种意义才会更明显。
2复杂网络中的社团结构
2.1社团结构和分析算法
近年来,随着研究人员对复杂网络研究的越来越多,人们发现了一个网络的共同结构,也就是社团结构。目前人们所说的社团结构,还没有形成统一的概念,往往会被认为网络的顶点可以分组,而组内顶点连接比较稠密,组间顶点连接比较稀疏。事实上,研究人员为了搞清网络社团结构的特性,对寻找网络中社团结构的多种方法进行了实验和研究,以期找到有效的算法,尽量用比较少的信息去寻找尽量准确的社团结构。到目前为止,研究人员已经提出了若干社团发现算法,包括谱分析算法、最优目标函数算法、基于连边密度、介数、信息中心度、随机行走等,计算机领域中的图分割(GraphPartitioning)算法、社会科学中的层次聚类算法(HierarchicalClustering算法)、W-H算法和GN算法是最有代表性的方法。
但是在社团检测中,人们一般会遇到两个难题:一是不知道一个网络到底含有多少个社团;二是网络中的顶点可能属于不同的社团,即网络中存在重叠节点,这些节点也称为“骑墙”节点。重叠社团的检测对现实生活中的网络比较有效,所以,本文重点讨论重叠社团检测算法。
2.2社团结构的定义形式
2.2.1局部定义
所谓的强社团,是指社团任何一个顶点在社团内的度大于该顶点与其它社团内顶点相连的边的数量,可用公式表述如下:
而所谓的弱社团,是指社团内所有顶点在社团内的度之和大于该社团内的顶点与其它社团内顶点相连的边的数量,用公式描述为:
2.2.2全局定义
许多算法要求对网络的整体结构有个了解,社团也可以以网络的整体去定义,这是因为在这种情况下,团簇作为网络的基本组成部分,在不严重影响系统功能的情况下,是不能被剖析的。过去的研究工作给我们提供了许多确定社团的全局标准,它们往往不是直接定义的。通常一些全局属性都是在算法中体现出来的。这一系列的定义都是基于一个网络不同于随机网络那么有社团结构。随机网络通常被认为没有社团结构,因为任何两个顶点都具有相同的毗邻可能性,所以它不会有一组优先连接的特别顶点。因此,人们可以做出一个“空模型”。所谓的空模型是指它能具有一些所给网络的结构特征,但其本身还是一个随机网络。最流行的空模型是由Newman和Girvan提出的,它是由原始网络的随机版本组成的,是在人们期望的顶点的度与原始网络中顶点的度保持一致的约束条件下,让其边随机连接得到的。这也是后来的模块度概念的基础,事实上,模块度是社团结构的一个重要的检验标准。
2.2.3模块度
网络中连接社团内部顶点间的边的比例与拥有相同社团结构但顶点间随机连接的网络中连接社团内部顶点间的边的比例的期望值的差值为:
其中,Aij代表连接矩阵中的元素;ki表示顶点i的度;ci是顶点i分配的社团;函数δ(i,j)的定义为当i=j时其值为1,否则为0;
2.2.4归一化互信息
归一化互信息(normalizedmutualinformation,NMI)是Lancichinetti等人在2009年提出的,归一化互信息应用在重叠社团检测上面。对于图C'中的每个顶点i,其社团隶属度可以描述成一个长度为|C'|的二元向量(|C'|为C'中团簇的数量)。如果顶点i属于第k个团簇Clk,那么(xi)k=1,否则为0。第k个向量可以看做随机变量Xk,其概率分布为P(Xk=1)=nk/n,其中nk=|Clk|为团簇Clk顶点的个数,n是总的顶点数量。同理,也可以求出图C″中第l个团簇的随机变量Yl,那么,P(Xk,Yl)的联合概率密度就可定义为:
其中,Xk是给定Yl的情况下的条件熵,可以定义为H(Xk|Yl)=H(Xk,Yl)-H(Yl)。Xk相对于整个向量Y的熵是基于Xk与Y中团簇的最佳匹配,故可表示为:
X相对于Y的归一条件熵可以表示为:
同理,也可以得到H(Y|X)。最后得到的两个图C′和C″的归一化互信息为:
NMI(X|Y)=1-[H(X|Y)+H(Y|X)]/2(10)
一般情况下,扩展归一化互信息的值在0~1之间,等于1时相当于最佳匹配。
3分类聚集
其中,ki是顶点i的度(也就是说它具有连接的数量),这种测量具有良好的属性,其值一般在0和1之间,0的时候代表它们没有公共临近点,1代表它们具有所有的临近顶点。
一旦定义了连接强度的测量值,那么就可以给顶点分组,并以分级的形式完成。首先把孤立的节点分成小的组,然后把这些小的组再分成较大的组,可以通过不同的方法让这些分组得以实现。常见的分组方式有单连接法、全连接法、平均连接法三种。目前,单连接聚类是使用最广的,因为它应用比较简单,但是事实上,平均连接聚类算法通常能得出更好的结果,而且使用也挺方便。
图1所示是使用平均连接聚类得到的结果,它是基于有名的空手道俱乐部网的余弦相似度。这个网络模型是观察了美国一所大学空手道俱乐部34名成员之间的社会关系得出的,这个网络之所以有趣,是因为在是否提高俱乐部会费上存在争议,由于不能达成一致,俱乐部成员分成了两个派别,一个派系又建立了另外一个俱乐部。据说,通过了解网络中描述的友谊关系(没有分裂之前的俱乐部),可以对两个派别的成员作出预测。
图1小规模社会网络的平均聚类
图1以树状图的形式表示了分类聚集的输入结果,其代表了顶点分组成社团时的顺序,一般需从下往上读取。在底部有孤立的节点,它们被分组成对,我们沿着树状图往上移动,将被分成更大点的组,当到达最顶端,所有的顶点被分到一个组里面。在单幅图中,树状结构捕获了分类聚集的整个过程。在图中做一个水平切割,则可代表中间阶段的分组。
犹如我们看到的一样,本方法把顶点分到两个较大的组,每个组包含的顶点约占整个网络的一半,最后这两个组在树状结构的顶端合并成一个组。事实证明,算法划分成的两个组与实际的俱乐部分裂成的恰恰一致,图中用不同的颜色标出。因此,本例中这个方法非常有效。它有效地预测了社会未来的现象,通过定量数据的测量,推断了俱乐部的分割现象。分级聚类方法简单明了,易于使用,但是它不一定都能获得满意的结果。因为它有很多变量(不同的测量长度和不同的连接规则),而且不同的变量会导致不同的结果,又不清楚哪个结果是最“恰当”的结果。本方法有聚集较强连接的顶点,但有遗漏较弱连接顶点的趋势。所以,其产生的分类不一定是完整的分类,而是几个稠密中心加上环绕其外围的孤立顶点。理想中,我们希望出现一个更可靠的方法。
4优化方法
图2所示是科学家合作网的模式图,也是使用模块度最大化的一个例子。模块度方法的优点之一是不需要事先知道网络中含有几个社团,而且自由的模块度可最大化,其社团的数量可以改变,并会告诉最优越的数量,并且能找到社团之间顶点的精确划分。
图2科学家合作网
基于适应度函数的局部优化算法应用越来越广,这里也对其进行详细介绍。本算法是为了解决分级重叠社团而提出的,算法运用了基于适应度函数的局部优化方法,社团结构由适应度直方图的顶点构成,社团的不同等级可以通过参数的调整来实现。实验证明,该算法在人工和现实网络中都取得了较好的效果。
在微观模块层次的网络架构一般非平凡,这一事实阻碍了解决方案。原因至少有二:一是整体等级模块,因为社团是镶套的,小社团组建成大社团,大社团再依次组建更大社团等。比如,一个大的公司组织,甚至复杂的生命也可以用网络等级描图出来。二是组织的等级形式有限,每个模块负责系统里不同的功能。社团结构的概念因为等级而变得更为丰富,它需要一种方法可以探测出所有组合等级,而不是单个。分类聚集是社会网络分析、生物和金融中一种众所周知的技术,从单个节点作为一个社团或所有的节点作为一个社团开始,根据顶点间相似度的拓扑方法,合并或者分裂一个团簇。这样,建立起等级树状结构,也叫做生物树图。通过这种方法,尽管能够产生一个分级分割,但对分割的质量无从判断。Newman和Girvan两人提出了衡量分割好坏的算法,但是它只对单个分割有效。
这里的社团是通过子图顶点的属性或适应度最大化形成的,本算法比较了几种适应度的方法,最后给出了比较优化的简单表达式:
这里的kinG和kou分别代表模块G中顶点的入度和出度;α是一个正实数类型的参数,它用来控制社团的规模。入度在数值上等于模块内部连接数量的两倍,出度等于模块内成员与其它顶点连接的数量。本算法想从节点A开始确定一个子图,通过添加或删除子图中的一个节点达到减弱适应度函数fG的目的。我们称子图为节点A的自然社团,这就相当于给定一个参数α后,去寻找适应度函数的最大值。事实上,每个节点的最大值相当于整个网络,因为在给定参数α后,当koutG为零时,fG会取得最大值。
当给定一个适应度函数fG后,节点A关于子图G的适应度函数fGK可由子图G在有节点A时的适应度减去子图G在没有节点A时的适应度得出。其函数如下:
式中,G+{A}(G-{A})表示模块G在包含节点A(和不包含节点A)的情况下获得的子图。
节点A的自然社团可以由下面的过程得出,设想有包括节点A的子图G,最初G被视为节点A,那么,算法的重叠部分包括下面的步骤:
(1)找出G周围相邻但是不属于社团G内的点;(2)将相邻点中拥有最大适应度的点添加到G中,并组成一个新的社团G';
(3)重新计算G'中每个顶点的适应度;(4)如果一个顶点的适应度为负数,那么将它从G'中删除,
并且组成新的社团G″;
(5)如果步骤(4)出现,那么回到步骤(3),其它情况下返回到步骤(1)。
5k-means算法的最佳聚类数确定
k-means算法的基本流程由Snmez在2009年提出。其算法描述如下:
首先,在N个对象中随机选取k个点并形成k个团簇,这k个点分别作为所在团簇的初始聚类中心。
其次,将余下的点(N-K中的点)与其他团簇的中心的相似度进行比较,并得出相似度。
然后,把相似度比较强的点增加到团簇中,这样团簇就会越来越大。当一定的点都被划分到这个团簇的时候,团簇的中点会被重新定义。
接下来,再不断重复后面两个步骤,直到划分成一个完整的K派系团簇。
团簇种子是随机分配的,被认为是本算法的缺点,由于这种原因,可能不能获得最佳的划分。为了解决这个问题,k-means算法中允许点在团簇内移动,因此,团簇内的相似度会随着其它团簇的增大而增大。另一方面,事物的转移会有利于社团的划分,但它并不能保证100%的成功,一种有效的检验团簇划分的方法是评估每个事物的轮廓值,也就是我们所说的Silhouette指标。轮廓值定义如下:
式中,a(i)是第i个事物与同团簇内其它成员的平均相似度,b(i,k)代表第i个事物与第k个团簇内成员之间的平均相似度。轮廓值s(i)的取值范围在-1~+1之间,+1说明第i个物体被放在了很正确的团簇中,与其它团簇中不相似的事物之间的分割也比较好,0表示第i个事物没有明显地划分到任何一个团簇中,-1代表第i个事物划分到错误的团簇中。总之,平均的s(i)为具有N个物体的k派系划分的评估提供了一个粗略的方法。s(i)系数的值越大,说明划分越好。
第一,选取聚类中心的探索范围,这里设定为[2,n],由于股票数为273,所以其范围可以设为[2,16];
第二,分别取k值在[2,16]之间的一个数作为聚类中心的个数,并转向k-means算法进行聚类;
第三,分别计算聚类中心为k时的聚类结果所对应的Silhouette值;
第四,比较k在[2,16]之间分别得到的Silhouette值,其中最大的就是我们所要求的最佳聚类数。
至此,便可用实验得出如图3所示的数。本设计最后选取k为11进行聚类,其得出的结果和现实
世界中的真实情况接近。
6结语
许多其它的算法由于篇幅的问题,本文没有一一讲解。开发的步伐也在加速,本领域为物理、生物、社会科学以及其它学科的研究提供了一些有用的资料,如果有人有能力搞清社团的大小结构,那么就相当于他为了解复杂系统开辟了一个窗口。
图3聚类计算出的Silhouette
9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。
加利福尼亚州圣克拉拉县2024年8月30日/美通社/--数字化转型技术解决方案公司Trianz今天宣布,该公司与AmazonWebServices(AWS)签订了...
伦敦2024年8月29日/美通社/--英国汽车技术公司SODA.Auto推出其旗舰产品SODAV,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。SODAV工具的开发耗时1.5...
北京2024年8月28日/美通社/--越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...
8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。
8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。
8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。
要点:有效应对环境变化,经营业绩稳中有升落实提质增效举措,毛利润率延续升势战略布局成效显著,战新业务引领增长以科技创新为引领,提升企业核心竞争力坚持高质量发展策略,塑强核心竞争优势...
北京2024年8月27日/美通社/--8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场NVI技术创新联...
北京2024年8月27日/美通社/--在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...
山海路引岚悦新程三亚2024年8月27日/美通社/--近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...
上海2024年8月28日/美通社/--8月26日至8月28日,AHNLAN安岚与股神巴菲特的孙女妮可巴菲特共同开启了一场自然和艺术的疗愈之旅。妮可·巴菲特在疗愈之旅活动现场合影...
8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。
上海2024年8月26日/美通社/--近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...
上海2024年8月26日/美通社/--今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...
此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。芝加哥2024年8月27日/美通社/--消费者和媒体情报、互动及传播解决方案的全球领导者Cis...
上海2024年8月27日/美通社/--近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。作为全球领先的...
北京2024年8月27日/美通社/--高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。2...
8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。