社交媒体平台谣言的早期自动检测

关键词:谣言;早期检测;深度神经网络;社交媒体

一、前言

二、已有谣言检测方法

1.传统分类方法

Yang等(2012)面向中文新浪微博进行谣言的分析与检测,文中指出当时新浪微博的用户量是Twitter用户量的8倍之多,并且有许多与Twitter不同的功能,其中之一就是新浪微博拥有官方的谣言举报与公布平台。在方法方面,该文引入了基于客户端和用户位置的特征,能够更加准确地识别新浪微博的谣言,在真实数据集上的定量实验也验证了这些特征的有效性。

这些基于分类特征的谣言检测方法初具成效。但是,手动设计特征的方式耗时耗力,而且设计出来的特征也往往局限于特定场景,泛化能力不好。近年来,随着以神经网络为代表的深度学习技术的兴起,研究者开始探索基于深度神经网络的谣言检测方法。

为了解决传统基于特征方法存在的问题,研究者提出采用深度神经网络(deepneuralnetworks,DNN)自动学习有效的语义特征来识别谣言。

Yu等(2017)则指出循环神经网络存在一些缺陷,如不能有效进行谣言早期检测。因此,该文提出采用卷积神经网络(convolutionalneuralnetwork,CNN)技术捕捉文本语义特征。实验证明该方法能更有效地识别谣言并且有助于实现谣言早期检测。

Bhatt等(2018)使用了深层的多层感知机(multi-layerperceptron,MLP)来结合神经网络特征、统计特征以及人工设计的谣言特征的方法。该方法分别使用深度神经网络提取出神经网络特征,使用加权词袋模型计算出统计特征,并且使用特征工程方法来得到手动设计特征。最后使用深层MLP将三类特征结合起来,用以识别谣言。

Ma等(2017)提出基于传播树结构的核方法来进行谣言检测。该方法通过评估传播树的结构相似性来捕获不同类型信息的高阶传播模式特征,也就是从原始信息的传播与发展方式出发来提取特征,识别谣言。

传播过程中还有一种现象值得注意,就是“意见领袖”。拉扎斯菲尔德在20世纪40年代提出“意见领袖”的概念,意指大众传播中的“信息中介”及人际传播中的“活跃分子”。意见领袖能更快、更多地接触到媒介信息,并通过一定的加工处理后,将信息和观点传达给更为广泛的普通受众,即这个传播过程是从大众媒介到意见领袖再到一般受众。

总结来说,为了解决社交媒体平台上的谣言检测问题,计算机领域研究人员建议使用机器学习技术进行自动在线谣言检测。大多数现有模型将谣言检测视为二元分类任务,并分别探索了基于特征工程的方法、基于深度神经网络的方法,以及基于传播模式的方法,取得了一定的效果。然而,这些方法都没有充分考虑尽早检测谣言的目标。如何在发布早期,仅利用有限信息就能检测出谣言,仍然是一个挑战性问题。

三、谣言早期检测探索

谣言早期检测要求模型在谣言广泛传播之前尽早做出可靠的预测。上述现有的基于神经网络的谣言检测方法,需要考虑全部或固定比例的转帖信息才能有效地检测谣言,在实践中无法实现早期检测。对此,我们提出一种新的模型来实现谣言早期检测,从而有能力实现社交媒体谣言的实时监测。

(一)特征提取与神经网络建模

对于转换后的转帖序列,我们需要将每个单元中的文本信息转换为特征向量,并将此向量提供给神经网络。这里我们分别采用Salton等(1988)中提出的TF-IDF和用于捕捉局部信息的卷积神经网络(CNN),将每段切割后的转帖序列转换成特征向量。其中TF-IDF是一种基于统计的、简单有效的文本表示方法;卷积神经网络(CNN)则已成功应用于句子语义分析、点击率预测、文本分类等任务,其架构有助于提取重要的语义特征。为了验证疑似谣言原文内容在谣言检测中的作用,我们进一步在模型中使用卷积神经网络对疑似谣言内容进行建模,并将考虑疑似谣言内容的模型表示为CED-OM。

循环神经网络(RNN)通过循环单元处理可变长度序列,是用于序列建模的典型神经网络。如图2所示,我们首先用TF-IDF或者卷积神经网络将每段文本转化为输入向量。在每一步,循环单元基于先前的隐状态和当前输入更新其隐状态,并作出当前时刻的谣言检测判断。

(二)可信早期检测

在测试期间,为了实现谣言早期检测,我们提出基于阈值的谣言检测策略:在转发序列的每一步计算预测概率,如果当前预测概率超过或者低于某一阈值,立即判定该微博是否是谣言,否则继续载入下一段转发文本。

四、实验结果与分析

(一)数据集

我们使用Yu等(2017)的研究中来自新浪微博的谣言数据集评估模型的有效性,标记为“Weibo-stan”。我们获取数据集中的微博ID列表,并收集每条微博的所有转发信息。此外,为了在更多的情况下验证模型的性能,我们还抓取了更多的微博数据来构建更大的数据集,称为“Weibo-all”。为了获取更多的微博数据,我们从报告各种谣言信息的新浪社区管理中心获得了一组已知的谣言。我们还收集了相当数量的非谣言微博。表1列出了这两个数据集的详细统计数据。

(二)比较方法

我们选用以下四个代表性方法进行性能比较:(1)CNN-OM:使用卷积神经网络(CNN)对疑似谣言原始微博进行表示并用于谣言分类;(2)TF-IDF:将转发序列的所有文本信息处理为TF-IDF向量表示(Saltonetal.,1988),训练支持向量机分类器进行谣言分类;(3)GRU-2:使用2层带门的循环神经网络GRU(Choetal.,2014)训练谣言分类器;(4)CAMI:使用段落向量(ParagraphVector)表示每个转发文本(Yuetal.,2017),并利用卷积神经网络捕捉上层的段落间联系进行谣言分类。

(三)评测方法与实验结果

我们使用准确率、召回率和F1等评测指标评估这些模型的性能。此外,为了证明早期检测模型的有效性,提出提前率(ER)评估预测时使用转发文本的百分比,较低的ER值意味着模型使用较少的转发信息,可以更早地检测到谣言。我们将展示两个预测阈值设置(0.875和0.975)下的预测结果。表2列出了各种评估指标下不同方法的详细结果。我们加粗每列的最佳结果。

从实验结果来看,我们有以下观察:

(1)与所有的基线方法相比,我们提出的谣言早期检测模型CED、CED-OM和CED-CNN在实现更高预测准确性的同时,使用了更少的转帖序列信息,证明了早期检测策略的合理性和有效性。

上述观察表明,我们的模型能够使用有限的转帖信息进行更准确的预测,它对各种数据集和参数设置都很灵活,且鲁棒性(robustness)强。

(四)早期检测结果

在CED的训练期间,每条疑似谣言的“可信检测点”都不断提前,并在测试期间,可以根据基于阈值的策略进行判断。换句话说,CED可以自动学习并推断出每条微博的适当“可信检测点”。在图4中,我们显示了测试集中“可信检测点”的分布。为了反映不同模型在不同数据集中的具体表现,我们分别计算了微博所有数据集中三种方法(CED,CED-OM,CED-CNN)的早期检测点分布情况。

从这个图中,我们发现:(1)在使用到的转发信息量少于10%的情况下,CED/CED-OM/CED-CNN可以分别检测约30%/40%/60%的微博。这验证了额外考虑原始微博信息以及利用卷积神经网络建模的优势。与此同时,我们提出的三种CED方法都可以对谣言做出有效的早期检测。(2)在使用整个转帖序列进行检测时,占比出现了局部峰值(使用100%转帖信息)。可以看出,这种情况在CED-CNN中较少,小于10%,表明CED-CNN进行可检测所需要的转帖信息量更少,具有较高的转帖信息利用率。

(五)案例研究和错误分析

五、总结与展望

本文工作受到国家社会科学基金重大招标项目(批准号:13&ZD190)的支持,特此致谢。本文部分内容曾以英文形式公布于在线预印本网站arxiv.org上(Song,etal.,2018)。

THE END
1.网上交易平台的真实情况与可靠性分析,如何选择可信平台?紧随其后的是京东,这一平台以其正品保障和高质量的服务而受到广大消费者的喜爱。京东的快递速度和售后服务也让人印象深刻,成为了网购的另一大热门选项。 苏宁:家电与家具的好去处 苏宁易购是一个专门销售家电和大型家具的网站,尽管它的物流服务与京东和淘宝相比略逊一筹,但依旧为许多消费者所喜爱,尤其是在大型商品https://www.9200.cn/178227.html
2.如何辨别黄金交易平台的真假?最后,可以通过在线客服体验其服务响应速度与专业度,这些都是评判一个黄金交易平台真伪的重要因素。https://www.zhiguf.com/questions_detail/9422447
3.91破解版:91破解版扩展版:无限潜力与全新功能的体验之旅从简单的小工具开始,到如今复杂的大型手游,每一个版本都反映出技术的发展历程。这些变化使得越来越多的人加入到探索这一领域中,他们希望获取更加优质或完整的软件体验。 91破解版如何改变消费模式? 传统上,许多人需要花费一定金额才能获得喜爱的应用或游戏。而通过91破解版,这一障碍被打破,大量本应付费内容可以http://m.nuanyijia.vip/itnews/29761.html
4.在线刷抖音网站,如何辨别真假?在当今数字化时代,社交媒体平台已成为人们生活中不可或缺的一部分,抖音作为其中的佼佼者,吸引了大量用户和创作者,随着在线刷抖音网站的兴起,如何辨别这些网站的真假成为了一个亟待解决的问题,本文将从多个角度出发,探讨如何有效识别在线刷抖音网站的真伪。 https://game.huochengrm.cn/zmt/49926.html
5.外汇平台排名真实性如何判断?其次,注意平台的出金情况,正规平台应允许自由、无限制的出金,不应有任何额外费用或保证金的要求。 再者,查看平台的官方网站和背景信息,确保访问的是真实平台,避免假冒网站。 另外,投资者还应查看平台的用户评价和投诉情况,一个有大量负面评价和投诉的平台很可能是不靠谱的。 https://www.bilibili.com/read/cv40039919
6.HTTPS加密证书,SSL数字证书,服务器证书,代码签名证书常见问题解答与其他CA不一样的是,DigiCert完全集中在SSL的创新,提供全系列的SSL证书,工具,和管理平台,是名副其实的行业领导者。 2020-07-16 代码签名证书有哪些种类,有什么作用? 代码签名证书是为软件开发商提供了一个可以进行代码软件数字签名的认证服务,使得软件开发商能对其软件代码进行数字签名。而开发人员可以通过代码签名https://www.wosign.com/FAQ/index_1.htm
7.“是不是诈骗”合信(APP)是骗子专用软件,提现被驳回太不可靠,这就合信是一个提供兼职做任务的平台,从平台的正规性和功能性来看,它是不可靠的。合信隶属于诈骗公司的前身的,后者是一家不正规不合法不安全的公司,口碑极差! 合信平台是一个综合性的在线服务平台。合信是一个集多种服务于一体的在线平台,号称用户可以通过一步手机就可以在家赚钱,非常的诱惑人,佣金非常的高,而且做https://www.jianshu.com/p/b67f909892ca
8.巩固拓展脱贫攻坚成果与乡村振兴200问,庐山市人民政府,法定主动答:易返贫致贫人口与监测对象是同一个概念。 22.?监测对象的认定条件是什么? 答:综合考虑收入支出情况,以及“三保障”和饮水安全等方面存在的返贫致贫风险,以家庭为单位开展监测对象识别认定。具体工作中,可以分两类情况:一是农户人均纯收入在当地监测范围内,且因受各种原因影响导致基本生活出现严https://www.lushan.gov.cn/bmxzxxgk/xiangzheng/nkz/xxgk_196172/fdzdgknr_196175/tpgj_196189/202212/t20221228_5895031.html
9.互联网保险消费者权益保护,你需要了解的5个问题基础知识问题一:互联网保险销售是否合法? 互联网保险销售是合法的。2015年3月,中国保监会发布了《关于互联网保险业务监管的通知》,明确规定了互联网保险销售的合法性和监管要求。同时,监管部门也加强了对互联网保险销售平台的监管,保障了消费者的权益。 问题二:如何识别合法的互联网保险销售平台? https://www.shenlanbao.com/zhishi/5-584599
10.在1688上寻找货源时,如何判断一个供应商厂家是否可靠在1688上寻找货源时,如何判断一个供应商厂家是否可靠 发布作者:东风 发布时间:2024-08-28 10:28:03 在阿里巴巴旗下的1688批发平台上,寻找合适的供应商厂家是许多企业和个人创业者的首要任务.然而,面对海量的供应商信息,如何快速准确地识别出可靠,优质的供应商成为了一个挑战.本文将通过四个关键步骤,帮助您在1688https://www.aiyongtech.com/new/id8367
11.如何识别和验证金融平台的真实性?金融平台真实性的验证方法和注意事在当今复杂的金融市场中,识别和验证金融平台的真实性至关重要。一个虚假或不可靠的金融平台可能会给投资者带来巨大的经济损失。以下是一些有效的验证方法和需要注意的事项。 一、查看监管资质 正规的金融平台通常会受到相关金融监管机构的监管。投资者可以通过以下途径查询: https://stock.hexun.com/2024-08-26/214161407.html
12.上市企业品牌建设与员工认同和组织文化的塑造社交媒体是一个非常重要的品牌建设平台。企业可以在社交媒体上发布有关品牌的内容,以吸引和留住消费者。同时,企业也应该与消费者互动,回复他们的评论和问题,以增强品牌形象和忠诚度。 总之,建立品牌识别度是一个漫长而持续的过程。企业需要长期的投入和维护,才能够建立一个成功的品牌形象。 https://www.rhtimes.com/news/Design-NEWS7662.html
13.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub发生在英国与美国的两个系列官司; 陪审团、直播、短视频、梗图; #MeToo与女权遭遇的反弹? 591 “自媒体”十年 2022/5/24 “自媒体”十年:流量生意,一地鸡毛; “自媒体推动民主化”的想象; 平台与内容工厂的合谋; “人民币是最大驱动因素”; 一个没有自律和理想追求的行业。 https://github.com/Newslab2020/Contents/blob/master/premium.md
14.如何辨别假的加密货币交易所:一个投资者的必修课交易平台在本文中,我们将先介绍什么是加密货币交易所,然后再告诉您如何识别假的加密货币交易所,以及如何防止自己的资产被骗。 什么是加密货币交易所? 加密货币交易所是一种在线平台,它允许用户使用不同的加密货币(如比特币)进行交换。它们为用户提供了一个安全的环境,可以让用户购买、出售、兑换和存储加密货币。 https://www.jb51.net/blockchain/900522.html
15.档案管理论文经典15篇当设计人员利用信息化平台查询图纸时,会发现不同项目的图纸归档在同一项目下,或者同一项目中有两个相同的专业,一方面不利于档案部门的形象,另一方面浪费了不必要的人力和物力,降低了工作效率。 (二)识别功能有待改进 1.同一套图纸中子项名称或建设单位不统一,不能自动识别。一套图纸的图签由建设单位、子项名称、https://www.wenshubang.com/danganguanlibiyelunwen/4591929.html
16.家装公司的商业计划书范文(通用8篇)但激烈的竞争就意味着充足的机会!同时装饰行业又是老百姓的生活最需要的基本行业,不管目前的地产是否低迷,它的客户需求依然有巨大的市场,关键是如何抓住机会和创造属于自己的机会,我想只要有好的运作管理及平台,在装饰这个行业中还是可以创造出一片天地来。https://www.ruiwen.com/shangyejihuashu/6192919.html
17.文档中心虹软AIA:主要是权限不同,企业专属权益:1. 可获全平台所有增值版 SDK 试用码,各平台试用码有效期3个月;2. 免费下载使用门禁应用套件及源码。 3. SDK 说明 3.1 SDK 下载 Q:如何注册下载人脸识别 SDK? A:请登录虹软视觉开放平台,参考【帮助与支持】-【新手指南】。 https://ai.arcsoft.com.cn/manual/docs#/42
18.如何实施pdca循环的四个阶段八个步骤PDCA循环的四个阶段八个步骤是一个系统化的流程,通过不断的迭代和改进,帮助组织实现持续的业务优化和流程改进。 飞书如何助力pdca循环的四个阶段八个步骤 飞书低代码平台如何助力pdca循环 飞书低代码平台为企业提供了灵活的工具,帮助团队在pdca循环的四个阶段中快速构建和优化流程。在计划阶段,企业可以利用低代码平台创https://www.feishu.cn/content/how-to-implement-pdca-cycle
19.SMTXOS社区版安装使用中常见问题合集–SmartX问题:服务器故障需要一个恢复的过程吗,恢复期间能提供服务吗? 回答:当集群中有服务器发生故障,集群会将故障的服务器上面的 VM 通过 HA 功能自动迁移至其他可用的服务器节点上并自动恢复运行,同时会自动执行数据恢复,保障数据可靠性;而没有故障的主机上的虚拟机不受影响,整个数据恢复过程,系统会监控集群的负载情况自https://www.smartx.com/blog/2022/02/smtx-os-faqs/
20.本文介绍了区块链和各行业的应用案例,一起来看看吧。在应用中嵌入Token的意义不仅仅是打赏,而是建立一个生态,而支付必然是整个生态中最核心、最重要的特性。当你在播客平台中,无需进行人民币、美元充值,只需使用ETH或者BOX即可进行支付,购买喜欢的内容,大家使用同一种代币结算方式,无需进行汇率转换,所有支付信息上链,可追溯却不可篡改,公开透明却又安全可靠。 https://www.51cto.com/article/620564.html