大数据背景下新闻筛选的分布式算法研究传媒

新闻文本的筛选问题本质上可以归结为文本的二类分类问题,但同传统的文本分类相比而言又有着明显的差异性。一是文本类间界限的不明确性,即分类的标准是由人为确定的所谓新闻价值决定;二是随着信息产业的发展,尤其是Internet的爆炸式增长,需要分析的新闻数据呈现海量性特点,传统的文本分类算法如KNN、SVM、贝叶斯等,在计算性能上已经难以达到要求。

本研究课题选取信息检索领域经典的Rocchio算法,并对其进行了基于MapReduce编程模型的并行设计。使其能满足在大数据的时代背景下及时的将新闻进行分类,发掘出其中有价值的信息,满足网站对新闻时效性的要求。

2.1基于改进TF-IDF算法的特征选择方法

TF-IDF算法是信息检索领域内常用的特征表示方法。其基本思想为,若某词条在某一文档中出现的词频TF(TermFrequency)较高,但包含此词条的文档较少,即词条的文档频率DF(DocumentFrequency)较低,则认为此词条具有很好的类别区分能力,应赋予较高权重。即:

,(1)

其中IDF(InverseDocumentFrequency)表示倒文档频率。TF和IDF的基本定义如下:

,(2)

,(3)

式中,freqij表示第i个词在第j篇文档中出现的次数,Maxfreqj表示第j篇文档中频度最高的词出现的次数;N为总文档数,ni为包含第i个词的文档数。

但这种传统的TF-IDF算法在应用于文本分类时存在不足。实际上,若某词条在一个类别文档中频繁出现,则说明该词条能够很好代表这个类的的特征,应赋予较高的权重。故张玉芳等[1]提出一种针对文本分类的改进TF-IDF算法,改进了IDF公式,即对于某一类文本C,IDF为:

,(4)

其中,mci为某类C中包含第i个词的文档数。如果除C类外,包含第i个词条的文档数为ki,则公式变为:

,(5)

2.2相似度算法

文本Doci在经过分词、去停词后,通过上文所述的TF-IDF方法算出权重wij并提取特征[2],便可以表示为向量空间模型(VectorSpacemodel,VSM)的形式,形成文本向量,形如:

此处n、m分别表示文档数与词空间的维度。若采用余弦相似度,则Doci与Docj本文相似度simij为:

,(6)

2.3Rocchio算法

Rocchio算法是一种基于类中心向量分类方法,其思想在于通过总括实例对每个类别的贡献而得到的泛化实例(GeneralizedInstances),即所谓的类中心向量作为模型来进行分类[3]。因此这种算法相对于KNN等其他分类算法而言高效而易于实现。虽然在分类精度上一般不及其他算法,但非常适合只有两类的分类问题,即区分A与~A的问题,因而特别适用于信息的过滤[4]。

对于类中心向量的训练,设初始状态时,类别Ci的中心向量ci的每一维度的权值都是0,则类别向量ci的第j维的权值cij为:

,(7)

其中wij为文本向量di第j维的特征权值,C为文本总体,k为迭代次数。典型情况下,,,

2.4MapReduce编程模型

MapReduce模型[5-9]是Google公司率先提出的一种分布式编程模型,专用于大规模数据集的分布式计算。此后Apache基金会又推出开源MapReduce编程框架Hadoop。。

MapReduce的处理过程如下图所示:

图1MapReduce的工作流程图

Fig.1TheworkflowdiagramofMapReduce

MapReduce将分布式运算抽象成Map和Reduce两个主要步骤。在MapReduce中,数据是以的形式存在的。Map步骤负责将输入的进行处理后生成同样形为的中间结果。中间结果根据key值的不同经过Combine、Sort、Shuffle过程将数据按相同的key合并为分发到不同的节点进行Reduce操作。Reduce步骤则将所有分发过来的中间结果根据Key进行合并以及处理,最后生成最终的处理结果。

三、基于MapReduce的Rocchio算法

3.1基于MapReduce的文档词频统计算法

输入数据的格式如表1所示:

Map过程:先将文档D解析为文档编号ID、文档内容C、文档属性A三部分,再把内容分词去噪,最后把得到的词条作为value输出,把词条所属的<文档号,属性>对作为key输出。伪代码如下:

Input:D

Output:

(1)(ID,C,A)=parse(D)

(2)T=segment(C)

(3)forterminTdo

(4)key=make_pair(ID,A)

(5)value=term

(6)output(key,value)

Reduce过程:Map的结果输入到Reduce过程之前,相同key的value会被合并在一起,形成,然后对每一个key统计其value_list中不同value(此时的value即为词条term)的频数,最后key原样作为Reduce的key输出,其对应value_list中不同的value和其频数作为Reduce的value输出。伪代码如下:

Input:

(1)forterminvalue_listdo

(2)freq=count(term,value_list)

(3)list.add(make_pair(term,freq))

(4)value=list

(5)output(key,value)

最后得到如下数据形式:

3.2训练阶段

对训练数据集应用2.1所述基于MapReduce的文档词频统计算法,得出针对每一文档的词频统计结果。然后根据1.1所述的基于改进TF-IDF算法的特征选择方法,计算出每个文档中每个词的权重wij,然后取权重最大的前K个词作为此文档的特征词合并所有文档的特征词,组成特征词空间,即为VSM的维度空间,记为V,

然后将之前得到的文本权重结果映射到特征词空间上,就可得到文本的特征向量,即为:

由公式(7)可知,

3.3分类阶段

对待分类数据集应用2.1所述基于MapReduce的文档词频统计算法,得出针对每一文档的词频统计结果。然后算出每一文档在特征词空间V上的权值,得到:

其中Non表明以上文本都是待分类。分类过程主要集中在Map阶段,以目标文档与类中心向量的距离为依据,并且在分类过程中通过公式(8)不断更新类中心向量,以达到反馈的效果。

(8)

其中ci为第i类的类中心向量,wi是刚分为第i类的文档向量,a、b为反馈系数,且a+b=1。

Map过程:将上述处理过的待分类文本向量VD解析为文档号ID,文档的特征向量wD=(w1,w2,…,wm),然后依据上述基于类中心向量cR、cNR分类与反馈机制进行分类,最后将文档号作为value输出,文档所属类别作为key输出。伪代码如下:

Input:VD,cR,cNR

(1)(ID,wD)=parse(VD)

(2)value=ID

(3)sR=cos_similarity(wD,cR)

(4)sNR=cos_similarity(wD,cNR)

(5)ifsR>sNRthen

(6)key=“R”

(7)cR=a*cR+b*wD

(8)else

(9)key=“NR”

(10)cNR=a*cNR+b*wD

(11)output(key,value)

上述算法将原来的单一反馈变为分布式的多反馈,如图2,因而可以有效平摊误差,提高准确度。

图2单一反馈到多反馈

Fig.2Singlefeedbacktomultiplefeedback

Reduce过程:同样,在Map过程和Reduce过程之间,相同key的对合并,成为,将其稍加处理原样输出即可。伪代码如下:

(1)fordocinvalue_listdo

(2)list.add(doc)

(3)values=list

(4)output(key,value)

经过以上算法处理,就可得到最后的分类结果如下:

四、实验及分析

4.1实验方案

实验环境采用分布式计算平台Hadoop(版本0.20.2),共有6个节点,每个节点的配置:CUP为4核3.2GHz,4GB内存,500GB硬盘,千兆网卡,操作系统为Ubuntu11.04。

,(9)

,(10)

,(11)

,(12)

4.2实验结果分析及与传统算法对比

由以上两表可以得到在不同规模集群的条件下MR-Rocchio算法与各算法的加速比如图3所示。其中SR表示加速比,N为集群节点数量。

图3MR-Rocchio算法与KNN、SVM、Rocchio的加速比变化图

Fig.3Trendlinesofspeed-upratioofMR-RocchiowithKNN,SVM,Rocchio

五、结语

参考文献

[1]张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用.计算机工程,2006,32(19):76-78.

[2]张海龙,王莲芝.自动文本分类特征选择方法研究.计算机工程与设计,2006,27(20):3838–3841

[3]张治国.中文文本分类反馈学习研究[D].西安:西安电子科技大学,2009

[4]刘培德,刘玉国,刘培玉.网络信息过滤系统的设计与实现.计算机工程与应用,2005(21):156—158.

[5]RLmmel.Google’smapreduceprogrammingmodel—revisited.ScienceofComputerProgramming70(1)(2008)1–30.

[6]Y.Liu,Z.Hu,K.Matsuzaki.Towardssystematicparallelprogrammingovermapreduce.Euro-Par2011ParallelProcessing,PartII,Vol.6853ofLNCS,Springer,2011:39-50.

[7]J.Dean,S.Ghemawat.Mapreduce:simplifieddataprocessingonlargeclusters.CommunicationsoftheACM,2008,51:107–113.

[8]C.Buckley,G.Salton,J.Allan.Theeffectofaddingrelevanceinformationinarelevancefeedbackenvironment,InternationalACMSIGIRConference,1994:292-300.

[9]T.White.Hadoop:TheDefinitiveGuide.O’ReillyMedia,2009.

THE END
1.大数据算法一文掌握大数据算法之:概述特点类型及难点等,值得2.2 大数据算法特点 大数据算法是在处理和分析大量、多样性且高速数据时所应用的算法。 其特点既与大数据的特征密切相关,又对算法设计和优化提出了独特的要求。 以下是大数据算法的几个关键特点: 高效性 大数据算法必须能够在处理海量数据时保持高效性,这意味着要能迅速处理大量数据而不牺牲太多速度。分布式计算和并行处https://blog.csdn.net/wuyoudeyuer/article/details/141284911
2.大数据5大特点产品特点以下是关于大数据的5大特点以及产品特点的介绍: 这个介绍展示了大数据的5大特点以及对应的产品特点,有助于我们更好地理解大数据技术在实际应用中的关键要素。https://www.kdun.com/ask/715090.html
3.大数据主要特征有哪些大数据主要特征有哪些 东奥注册会计师 2024-09-12 03:52:09 大数据主要特征有大量性、多样性、高速性、价值性。 价值性是指海量数据中真正有价值的数据占比非常低,即价值密度低。 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和https://www.dongao.com/zckjs/gsz/202107283501702.shtml
4.算法大数据平台有哪些特点帆软数字化转型知识库算法大数据平台是指集成了大规模数据存储、数据处理与分析工具,以及机器学习算法与模型管理系统的综合性平台。其主要功能是为企业和研究机构提供数据管理、处理与分析的能力,以及支持机器学习与数据挖掘应用的开发和部署。 算法大数据平台的特点有哪些? 弹性伸缩的数据处理能力:算法大数据平台具有强大的数据处理能力,能够支持https://www.fanruan.com/blog/article/4543/
5.Hadoop的特点有哪些大数据本篇内容介绍了“Hadoop的特点有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 1 Hadoop 简介 1.1 Hadoop 由来 数据容量 大数据时代数据量超级大,数据具有如下特性: https://m.yisu.com/zixun/489355.html
6.在线算法/数据流算法是面向大数据速度快的特点提出的。()在线算法/数据流算法是面向大数据速度快的特点提出的。()A.正确B.错误的答案是什么.用刷刷题APP,拍照搜索答疑.刷刷题(shuashuati.com)是专业的大学职业搜题找答案,刷题练习的工具.一键将文档转化为在线题库手机刷题,以提高学习效率,是学习的生产力工具https://www.shuashuati.com/ti/195ddf88b5cb4f11a28a7130fb63330e.html?fm=bdbdsd075b9c9bbaeeb8239adb7635af1fd3a
7.大数据有什么特点因此,如何从海量数据中提取出有价值的信息,是大数据处理和分析的关键问题。这也要求大数据处理技术具备更强的数据挖掘和分析能力,以发现隐藏在数据中的规律和知识。 综上所述,大数据具有数据体量巨大、数据类型繁多、处理速度快和价值密度低等特点。这些特点使得大数据成为当今信息化时代的重要资源,对于推动社会进步和经济https://localsite.baidu.com/article-detail.html?articleId=22506820&ucid=PHfzrjnLPWf&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&ch=54&srcid=10005
8.云计算区块链大数据之间的关系与特点算法物联网区块链技术大数据主要涉及四个方面的特点,即数据量大、数据类型多样、数据生成速度快和数据价值高。大数据可以帮助企业和组织发现隐藏在数据中的模式和趋势,从而支持决策、优化业务流程、改善产品和服务,以及提高效率和竞争力,其中包括了大数据算法。 大数据算法是指在大规模数据集上运行的算法。由于大数据具有数据量大、复杂度高、https://www.163.com/dy/article/J8C6LTLB05524GM0.html
9.共达地李苏南:0代码自动化,让AI算法赋能千行百业商业模式鲸解请您和我们分享共达地的市场定位是怎样的,岗位分布有哪些特点? 李苏南:共达地专注在通过AutoML自动化机器学习实现AI的大规模商业化落地。如果说AI行业发展的上半场是只有少数公司、少数科学家和高阶工程师才能参与的“小众”领域,那么下半场,共达地希望把AI的开发和训练门槛降到最低,让各行业中了解业务场景、业务需求的https://www.cls.cn/detail/1154839
10.大数据:分类算法深度解析在实际应用中,理解数据的特点和选择适当的算法是取得良好性能的关键。 3.3 神经网络 神经网络是一种模拟人脑工作方式的分类算法,由多个神经元层组成。在深度学习中,神经网络在大数据分类任务中表现出色。 以下是一个基本的神经网络示例,使用Keras库构建和训练一个简单的神经网络模型。 http://www.360doc.com/content/24/0112/20/78411425_1110858832.shtml
11.Contents/premium.mdatmaster·Newslab2020/Contents·GitHub如果取消牌照费,有哪些替代方案? 与流媒体的竞争,以及 BBC的未来. 618 伊朗:女青年之死、抗议、断网 2022/9/25 “头巾法”与宗教警察; 第三次切断互联网; 女性革命的到来? 617 《柳叶刀》新冠报告 2022/9/20 委员会的构成与运行; 报告的主要观点; https://github.com/Newslab2020/Contents/blob/master/premium.md
12.个人信息安全知识(通用8篇)生活中你有没有接到过骚扰电话呢?可能有的是因为哪些人太无聊随手打的,但是有的是因为你的信息遭到了泄露,在大数据生活时代该如何保护好自己的个人信息呢?个人的信息要怎样保护它的安全呢?下面是小编为大家整理了有关个人信息安全知识的相关内容,希望大家喜欢。 个https://www.oh100.com/zhishi/641285.html?1500536401
13.大数据的详细定义当我们打开购物软件或社交软件,首页总会推送一些我们近期搜索过的物品、相关话题,这时候大家头脑里都会冒出一个词“大数据”,那究竟什么是大数据?对于大数据很多权威机构给出了自己的定义,比如Gartner对大数据的解释是:大数据是指高容量、高速度或高多样性的信息资产,它们需要借助成本效益高、创新的信息处理方式,以获取更https://blog.itpub.net/70041355/viewspace-3029299/
14.大数据金融第二章大数据相关技术第一节 大数据处理流程 首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 https://www.jianshu.com/p/d68251554c66
15.国家开放大学高起专真题《大数据技术概论》5、NoSQL数据库具有以下几个特点: A.与云计算紧密融合 B.灵活的可扩展性 C.灵活的数据模型 D.数据模型比较死板 正确答案:A、B、C 6、典型的机器学习和数据挖掘算法包括: A.聚类 B.分类 C.正交 D.回归分析 正确答案:A、B、D 7、大数据处理分析技术类型主要包括: http://m.sdlcjyjt.com/h-nd-6069.html
16.科学网—[转载]基于材料数值计算大数据的材料辐照机理发现然而,面向多尺度模拟软件的统一数据存储方案目前仍然是个空白。本文针对材料多尺度数值计算大数据的特点,设计了一种适用于材料多尺度数值计算大数据的存储与管理框架,并基于该数据库框架,结合机器学习等算法,实现了其在改进材料多尺度模拟中的应用。 3 材料数值计算大数据的特点https://wap.sciencenet.cn/home.php?mod=space&do=blog&id=1315554
17.大数据“杀熟”的法律规制问题研究但是由于算法技术的专业性和隐蔽性,极易导致网络平台利用其特点对用户进行价格歧视和精准“杀熟”。遏制大数据“杀熟”需要建立完善的监管措施,实现消费者与网络平台提供者之间的利益平衡;构建算法解释机制,以便于实现保护消费者知情权与平台创新动力的平衡;完善权利救济机制,确保消费者可以平等地与网络平台提供者进行交易https://www.acla.org.cn/article/page/detailById/35713
18.中量大?专业巡礼走进数据科学与大数据技术9、数据科学与大数据技术专业的毕业生,主要面向哪些行业就业? 本专业就业前景广阔,毕业生能够在计算机和互联网领域以及大数据相关产业从事数据科学研究、大数据相关工程应用开发、技术管理与咨询等工作。智能计算方向的毕业生可以从事算法工程师、机器学习与人工智能理论研究与应用开发;大数据技术方向的毕业生能够从事数字化标准https://zs.cjlu.edu.cn/info/1067/3006.htm
19.大数据算法:1.2大数据算法大数据算法的特点与难点硬声是电子发烧友旗下广受电子工程师喜爱的短视频平台,推荐 大数据算法:1.2大数据算法-大数据算法的特点与难点视频给您,在硬声你可以学习知识技能、随时展示自己的作品和产品、分享自己的经验或方案、与同行畅快交流,无论你是学生、工程师、原厂、方案商、代理商、终端https://www.elecfans.com/v/152621
20.大数据时代“算法风险”的思考德勤中国风险咨询随着算法的深度应用,依赖算法的潜在风险也逐渐引起公众和业内关注,如大数据“杀熟”现象、推荐算法易加强低俗内容的扩散,推送群体偏差造成的客户体验下降等。就目前而言,由人类创造的人工智能,还摆脱不了人为因素,虽然学习了知识,却无法摒弃认知偏见。https://www2.deloitte.com/cn/zh/pages/risk/articles/algorithmic-risk-in-big-data-era.html
21.大数据分析是什么大数据分析是指对规模巨大的数据进行分析,挖掘数据的有利信息并加以有效利用,将数据的深层价值体现出来。从大数据的特点可以看出,没有一套可靠的数据分析方法和数据分析工具是不可能完成大数据分析的。有了大数据分析才能让规模巨大的数据有条有理,正确分类,产生有价值的分析报告,从而应用到各领域中,促进其发展。 https://www.linkflowtech.com/news/2090