关键词:谣言;早期检测;深度神经网络;社交媒体
一、前言
二、已有谣言检测方法
1.传统分类方法
Yang等(2012)面向中文新浪微博进行谣言的分析与检测,文中指出当时新浪微博的用户量是Twitter用户量的8倍之多,并且有许多与Twitter不同的功能,其中之一就是新浪微博拥有官方的谣言举报与公布平台。在方法方面,该文引入了基于客户端和用户位置的特征,能够更加准确地识别新浪微博的谣言,在真实数据集上的定量实验也验证了这些特征的有效性。
这些基于分类特征的谣言检测方法初具成效。但是,手动设计特征的方式耗时耗力,而且设计出来的特征也往往局限于特定场景,泛化能力不好。近年来,随着以神经网络为代表的深度学习技术的兴起,研究者开始探索基于深度神经网络的谣言检测方法。
为了解决传统基于特征方法存在的问题,研究者提出采用深度神经网络(deepneuralnetworks,DNN)自动学习有效的语义特征来识别谣言。
Yu等(2017)则指出循环神经网络存在一些缺陷,如不能有效进行谣言早期检测。因此,该文提出采用卷积神经网络(convolutionalneuralnetwork,CNN)技术捕捉文本语义特征。实验证明该方法能更有效地识别谣言并且有助于实现谣言早期检测。
Bhatt等(2018)使用了深层的多层感知机(multi-layerperceptron,MLP)来结合神经网络特征、统计特征以及人工设计的谣言特征的方法。该方法分别使用深度神经网络提取出神经网络特征,使用加权词袋模型计算出统计特征,并且使用特征工程方法来得到手动设计特征。最后使用深层MLP将三类特征结合起来,用以识别谣言。
Ma等(2017)提出基于传播树结构的核方法来进行谣言检测。该方法通过评估传播树的结构相似性来捕获不同类型信息的高阶传播模式特征,也就是从原始信息的传播与发展方式出发来提取特征,识别谣言。
传播过程中还有一种现象值得注意,就是“意见领袖”。拉扎斯菲尔德在20世纪40年代提出“意见领袖”的概念,意指大众传播中的“信息中介”及人际传播中的“活跃分子”。意见领袖能更快、更多地接触到媒介信息,并通过一定的加工处理后,将信息和观点传达给更为广泛的普通受众,即这个传播过程是从大众媒介到意见领袖再到一般受众。
总结来说,为了解决社交媒体平台上的谣言检测问题,计算机领域研究人员建议使用机器学习技术进行自动在线谣言检测。大多数现有模型将谣言检测视为二元分类任务,并分别探索了基于特征工程的方法、基于深度神经网络的方法,以及基于传播模式的方法,取得了一定的效果。然而,这些方法都没有充分考虑尽早检测谣言的目标。如何在发布早期,仅利用有限信息就能检测出谣言,仍然是一个挑战性问题。
三、谣言早期检测探索
谣言早期检测要求模型在谣言广泛传播之前尽早做出可靠的预测。上述现有的基于神经网络的谣言检测方法,需要考虑全部或固定比例的转帖信息才能有效地检测谣言,在实践中无法实现早期检测。对此,我们提出一种新的模型来实现谣言早期检测,从而有能力实现社交媒体谣言的实时监测。
(一)特征提取与神经网络建模
对于转换后的转帖序列,我们需要将每个单元中的文本信息转换为特征向量,并将此向量提供给神经网络。这里我们分别采用Salton等(1988)中提出的TF-IDF和用于捕捉局部信息的卷积神经网络(CNN),将每段切割后的转帖序列转换成特征向量。其中TF-IDF是一种基于统计的、简单有效的文本表示方法;卷积神经网络(CNN)则已成功应用于句子语义分析、点击率预测、文本分类等任务,其架构有助于提取重要的语义特征。为了验证疑似谣言原文内容在谣言检测中的作用,我们进一步在模型中使用卷积神经网络对疑似谣言内容进行建模,并将考虑疑似谣言内容的模型表示为CED-OM。
循环神经网络(RNN)通过循环单元处理可变长度序列,是用于序列建模的典型神经网络。如图2所示,我们首先用TF-IDF或者卷积神经网络将每段文本转化为输入向量。在每一步,循环单元基于先前的隐状态和当前输入更新其隐状态,并作出当前时刻的谣言检测判断。
(二)可信早期检测
在测试期间,为了实现谣言早期检测,我们提出基于阈值的谣言检测策略:在转发序列的每一步计算预测概率,如果当前预测概率超过或者低于某一阈值,立即判定该微博是否是谣言,否则继续载入下一段转发文本。
四、实验结果与分析
(一)数据集
我们使用Yu等(2017)的研究中来自新浪微博的谣言数据集评估模型的有效性,标记为“Weibo-stan”。我们获取数据集中的微博ID列表,并收集每条微博的所有转发信息。此外,为了在更多的情况下验证模型的性能,我们还抓取了更多的微博数据来构建更大的数据集,称为“Weibo-all”。为了获取更多的微博数据,我们从报告各种谣言信息的新浪社区管理中心获得了一组已知的谣言。我们还收集了相当数量的非谣言微博。表1列出了这两个数据集的详细统计数据。
(二)比较方法
我们选用以下四个代表性方法进行性能比较:(1)CNN-OM:使用卷积神经网络(CNN)对疑似谣言原始微博进行表示并用于谣言分类;(2)TF-IDF:将转发序列的所有文本信息处理为TF-IDF向量表示(Saltonetal.,1988),训练支持向量机分类器进行谣言分类;(3)GRU-2:使用2层带门的循环神经网络GRU(Choetal.,2014)训练谣言分类器;(4)CAMI:使用段落向量(ParagraphVector)表示每个转发文本(Yuetal.,2017),并利用卷积神经网络捕捉上层的段落间联系进行谣言分类。
(三)评测方法与实验结果
我们使用准确率、召回率和F1等评测指标评估这些模型的性能。此外,为了证明早期检测模型的有效性,提出提前率(ER)评估预测时使用转发文本的百分比,较低的ER值意味着模型使用较少的转发信息,可以更早地检测到谣言。我们将展示两个预测阈值设置(0.875和0.975)下的预测结果。表2列出了各种评估指标下不同方法的详细结果。我们加粗每列的最佳结果。
从实验结果来看,我们有以下观察:
(1)与所有的基线方法相比,我们提出的谣言早期检测模型CED、CED-OM和CED-CNN在实现更高预测准确性的同时,使用了更少的转帖序列信息,证明了早期检测策略的合理性和有效性。
上述观察表明,我们的模型能够使用有限的转帖信息进行更准确的预测,它对各种数据集和参数设置都很灵活,且鲁棒性(robustness)强。
(四)早期检测结果
在CED的训练期间,每条疑似谣言的“可信检测点”都不断提前,并在测试期间,可以根据基于阈值的策略进行判断。换句话说,CED可以自动学习并推断出每条微博的适当“可信检测点”。在图4中,我们显示了测试集中“可信检测点”的分布。为了反映不同模型在不同数据集中的具体表现,我们分别计算了微博所有数据集中三种方法(CED,CED-OM,CED-CNN)的早期检测点分布情况。
从这个图中,我们发现:(1)在使用到的转发信息量少于10%的情况下,CED/CED-OM/CED-CNN可以分别检测约30%/40%/60%的微博。这验证了额外考虑原始微博信息以及利用卷积神经网络建模的优势。与此同时,我们提出的三种CED方法都可以对谣言做出有效的早期检测。(2)在使用整个转帖序列进行检测时,占比出现了局部峰值(使用100%转帖信息)。可以看出,这种情况在CED-CNN中较少,小于10%,表明CED-CNN进行可检测所需要的转帖信息量更少,具有较高的转帖信息利用率。
(五)案例研究和错误分析
五、总结与展望
本文工作受到国家社会科学基金重大招标项目(批准号:13&ZD190)的支持,特此致谢。本文部分内容曾以英文形式公布于在线预印本网站arxiv.org上(Song,etal.,2018)。