当前信息传播模型的理论基础主要包括复杂网络理论、多重网络理论和社会网络分析法。复杂网络以图论和统计物理作为理论支撑,深入探讨网络拓扑结构及其特性。其主要特征包括:1.由多个节点或子系统组成;2.易受外界环境影响,并与外界不断进行物质、能量和信息交换;3.在特定情况下,网络内的节点之间存在某种链接关系,并且互相作用,从而给彼此带来影响;4.节点间的相互作用和整个系统存在某种复杂的非线性关系。而随着对社交网络研究的深入,学者发现其不仅是单层次复杂网络,因而提出多重网络的概念,即一个网络结构中具有多层网络。而社会网络分析法将整个网络视为由若干节点构成,每个节点之间有一定的链接关系,网络结构内的链接关系决定了信息的传播路径及其特征。
研究问题一:网络热点事件中,如何能够精确识别出对事件起主要作用的核心用户?
研究问题二:网络热点事件中,核心用户的特征有哪些?
研究问题三:哪些因素能够影响信息传播规模?
二、研究方法与数据预处理
2.1数据说明和预处理
2.2核心用户识别方法
2.2.1广播式和病毒式模体度的定义
定义1.广播式模体(broadcastmotif).反映了信息传播过程中的广播效应,是星形网络结构的主要构成成分,其中的扩散传播特征是由于单个有影响力的节点所致,其结构为图1中(a)的三节点模体结构。网络的广播式模体度即为网络中所包含广播式模体的数量指标。
定义2.病毒式模体(viralmotif).反映了信息传播过程中的病毒效应,它包括一个多代分支结构,其中节点仅直接影响相邻的分支,其主要结构为图1中(b)的三节点模体结构。网络的病毒式模体度即为网络中所包含病毒式模体的数量指标。
定义3.节点模体度(motifdegree).给定一个有向传播网络结构G=(V,E),V代表节点集,E代表边集,a∈V,由网络中任意节点a作为根节点,由a出发能够形成广播式传播模体结构与病毒式传播模体结构的数量指标,即图1中以红色节点为根节点可以形成广播式模体以及病毒式模体的数量,分别记为节点广播式模体度BM和节点病毒式模体度VM,因此该指标是由两个数值所构成的,结果保存于二元集合(BM,VM)中。节点模体度的算法伪代码如下所示。
2.3传播规模预测方法
2.3.1预测问题定义
本研究试图通过观察一条微博发布后一小时内的转发动态来预测其未来的传播规模。在我们的数据中,大多数的微博在发布后的72小时后很少会得到转发,因此本研究将预测问题定义为:已知一条微博发布后一小时内的转发动态,预测未来第75分钟、第195分钟、第315分,…,第4380分钟的传播规模。
其中,Ⅰ[X;Y]表示变量X和Y之间的互信息,|X|,|Y|表示在散点图网格中,分别在X和Y方向共被分成了多少段,|X||Y|<Β表示所有的方格总数不能大于Β,Β取数据总量的0.6或0.55次方,该值是一个经验值。
MIC具有普适性、公平性和对称性的特点。MIC的普适性是指它能够发掘样本中各种各样的函数关系,且不限定函数的类型(如线性函数,对数函数等)。总之,几乎能够囊括所有的函数关系;MIC的公平性是指对于有着相同的噪声程度的函数和非函数关系,MIC能够给出相似的系数。MIC的对称性是指MIC(X,Y)=MIC(Y,X),这是因为只取决于数据的排序,在保序变换轴中MIC是不变的,其中IF表示F在中的概率分布。
2.3.3基于XGBoost模型特征排序方法
XGBoost(ExtremeGradientBoosting)是一种梯度提升树(GradientBoostedDecisionTrees)模型。相比于经典的GBDT,XGBoost做了一些改进,从而在效果和性能上有明显的提升。GBDT将目标函数泰勒展开到一阶,而XGBoost将目标函数泰勒展开到了二阶,保留了更多有关目标函数的信息,对提升效果有很大的帮助。此外,XGBoost加入L2正则化项,有利于模型获得更低的方差。除理论与传统GBDT存在差别外,XGBoost的设计理念主要有如下几点优点:速度快、可移植、少写代码、可容错。
基于模型的特征排序方法,主要是根据算法模型的预测性能来评价特征子集的优劣。利用XGBoost机器学习算法,可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的影响力。在XGBoost算法中,特征评分可以看成是被用来分离决策树的次数,特征的评分越高,则说明该特征越重要,对于算法性能的影响越大。
三、研究发现与结果
3.1基于广播式与病毒式模体度的节点重要性分析
针对数据集中每一条“源微博”,本文首先利用其转发数据构建一个有向传播网络(微博作者为起始节点,转发者为目的节点)。其次,计算传播网络中每个用户的节点模体度指标。最后,对每个用户的节点模体度进行求和(即广播式模体度加上病毒式模体度),并按照从大到小的顺序进行排序。
图2(b)展示该条微博的节点模体度指标分布情况,横坐标轴代表节点的广播式模体度,纵坐标轴代表节点的病毒式模体度,节点模体度指标为零的用户不予显示。图中颜色条反映了具有相同节点模体度的用户频数分布,节点颜色越趋近于红色,说明某种模体度下的出现用户的频数越多。节点颜色趋近紫色时,表示某种模体度下的节点的数量越少。从图中可以看出,由于不同用户自身对传播贡献的差异,使得节点模体度指标的分布大体上分为两部分。
第一部分为坐标轴左下方的用户,这些用户具有较低的广播式模体数和病毒式模体数,对应图2(a)中未标明字母的紫色节点。第二部分为坐标轴右方的5个用户A,B,C,D,E。这些用户具有较大的节点模体度指标,说明对信息传播的贡献较大,基本上主导的信息的传播。
3.2影响信息传播的多类别多特征的结果分析
四、结论与讨论
附录
1.2转发网络类别特征分析
1.4微博文本类别特征分析
1.5最优特征组合
附录参考文献
[1]王平,谢耘耕.突发公共事件中微博意见领袖的实证研究——以“温州动车事故”为例[J].现代传播(中国传媒大学学报),2012,34(03):82-88.
[2]KatzE.Thetwo-stepflowofcommunication:Anup-to-datereportonanhypothesis[J].PublicOpinionQuarterly,1957,21(1):61-78.
[3]EirinakiM,MongaSPS,SundaramS.Identificationofinfluentialsocialnetworkers[J].InternationalJournalofWebBasedCommunities,2012,8(2):136-158.
[4]LIMSH,KIMSW,PARKS,etal.Determiningcontentpowerusersinablognetwork:anapproachanditsapplications[J].Systems,ManandCybernetics,PartA:SystemsandHumans,IEEETransactionson,2011,41(5):853-862.
[5]AKRITIDISL,KATSAROSD,BOZANISP.Identifyingtheproductiveandinfluentialbloggersinacommunity[J].Systems,Man,andCybernetics,PartC:ApplicationsandReviews,IEEETransactionson,2011,41(5):759-764.
[6]何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].情报理论与实践,2011,34(11):121-125.
[7]王平,谢耘耕.突发公共事件中微博意见领袖的实证研究——以“温州动车事故”为例[J].现代传播(中国传媒大学学报),2012,34(03):82-88.
[8]曾繁旭,黄广生.网络意见领袖社区的构成、联动及其政策影响:以微博为例[J].开放时代,2012,(04):115-131.
[9]王秀丽.网络社区意见领袖影响机制研究——以社会化问答社区“知乎”为例[J].国际新闻界,2014,36(09):47-57.
[10]崔凯,刘德寰,燕熙迪.草根意见领袖网络社会资本累积路径研究——基于网络美食社区“下厨房”网络爬虫数据的分析[J].新闻记者,2020,(02):64-74.
[11]林萍,王晓梅,魏静.基于社群结构比较的意见领袖协作网络分析[J].宁夏社会科学,2020,(02):193-205.
[12]彭希羡,朱庆华,刘璇.微博客用户特征分析及分类研究:以“新浪微博”为例[J].情报科学,2015,33(1):69-75.
[14]王和勇,蓝金炯.微群核心用户挖掘的关联规则方法的应用[J].图书情报工作,2014,58(02):115-120.
[15]吴玉兰,肖青.财经媒体官方微博传播影响力研究——以“@财新网”为例[J].现代传播(中国传媒大学学报),2014,36(06):53-57.
[16]崔金栋,郑鹊,孙硕.微博信息传播模型及其演化研究综述[J].图书馆论坛,2018,38(01):68-77.
[17]ReshefDN,ReshefYA,FinucaneHK,etal.DetectingNovelAssociationsinLargeDataSets[J].Science,2011,334(6062):1518-1524.
[18]ChenT,GuestrinC.XGBoost:AScalableTreeBoostingSystem[C]//Proceedingsofthe22ndACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.ACM,2016.
[19]王和勇,蓝金炯.微群核心用户挖掘的关联规则方法的应用[J].图书情报工作,2014,58(02):115-120.
[20]崔金栋,郑鹊,孙硕.微博信息传播模型及其演化研究综述[J].图书馆论坛,2018,38(01):68-77.
[21]KatzE,LazarsfeldPF,RoperE,etal.Personalinfluence:thepartplayedbypeopleintheflowofmasscommunications[J].AmericanSociologicalReview,1956,17(4).
[24]KupavskiiA,OstroumovaL,UmnovA,etal.Predictionofretweetcascadesizeovertime[C]//Proceedingsofthe21stACMinternationalconferenceonInformationandknowledgemanagement.ACM,2012:2335-2338.
[25]YangJ,LeskovecJ.Patternsoftemporalvariationinonlinemedia[C].websearchanddatamining,2011:177-186.
[26]HuY,HuC,FuS,etal.Predictingthepopularityofviraltopicsbasedontimeseriesforecasting[J].Neurocomputing,2016.