导语:在神经网络文本分类的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
一、引言
随着计算机和网络的迅速发展和普及,网络招聘正日益成为用人单位招聘人才的一种重要方式,招聘者们越来越
希望通过计算机技术协助人力资源管理来处理电子简历的评价及筛选,提升整个人力资源管理的效率。数据挖掘技术,是解决这一问题的较好方法。
本文将数据挖掘技术运用于网络电子简历的筛选,并比较了决策树与神经网络两种算法的优劣。
二、网络简历样本的获取与预处理
1.简历样本的获取
2.简历样本的预处理
考虑到本研究的挖掘目的,本文选取了以下几个应聘者的属性与招聘公司的需求进行匹配,在对数据进行处理后,再应用到数据挖掘工作中。所选择的属性都需要将招聘企业的要求和应聘者的信息相匹配,再进行数据的处理。选择的输入属性是:性别、年龄、籍贯、学历、婚姻状况、工作年限、政治面貌、毕业院校、计算机水平、专业、工作经验,输出属性是:是否被接受面试。
由于原始数据库中的数据存在着各种各样现实中不可避免的缺陷,下面将根据所选择的属性分别详述对简历数据所进行的预处理。
(1)性别(R_Sex):不需要复杂的处理。
(2)年龄(R_Age):本文将应聘者划分为三个年龄段:a.小于或等于三十岁;b.三十到五十岁;c.五十岁以上,修改后的数据变为“=50”。
(3)婚姻状况(R_Married):婚姻状况仅仅分为已婚和单身,因此将数据修改前的FALSE改为单身,TRUE改为已婚。
(4)籍贯(R_Place):本文在预处理中,将籍贯与招聘单位所在省份一致的应聘者籍贯取1,其余的为0。
(5)工作年限(R_WorkYear):本文将应聘者按照工作年限的长短来划分,修改后数据分别变为“=10”。
(6)学历(R_Education):大致分为博士后、博士、硕士、本科、大专、高中/中专六类,通过观察发现这一属性中存在一些空缺值,因此对这一属性的处理仅仅是把空缺值清除。
(7)政治面貌(R_Political):本文将是党员的不做修改,将其他表述一概改为其他。
(8)毕业院校(R_School):本文将应聘者的学校分为五类,并收集了大学的排名和院校名称,211重点大学取为1,一般重点大学为2,一般本科院校为3,其他专科和民办院校为4,海外大学为0。
(9)专业(R_Specialty):本文将企业对专业的要求提取出来与应聘者简历中的信息做对比,若两者专业相符合则改为符合,否则改为不符合。
(10)计算机水平(R_ComputerGrade):本研究将初级程序员用等级1代替,中级用2,高级用3,其余的为0。
(12)接受(Accept):接受与否属性是数据挖掘中唯一的输出属性,A类样本取作为接受,B类样本取为拒绝。
三、简历筛选的分类算法
本文主要选取了C5.0决策树算法和神经网络算法在数据挖掘软件Clementine中对预处理后的简历样本数据进行分类挖掘。
1.C5.0决策树算法
构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知记录的类别。本文分别抽取了几个岗位中的部分预处理后的数据作为数据挖掘的数据测试集,为决策树算法在招聘简历中的数据挖掘应用做进一步的验证和解释。
C5.0算法能产生决策树或规则集,并且在决策树的产生过程中它能自动根据最大信息增益进行样本拆分,一直到样本子集不能再拆分为止。因此本文选择C5.0算法来产生规则集,C5.0能支持基于准确性的规则和基于普遍性的规则,基于普遍性的规则会考虑尽可能大的样本量,而基于准确性的规则则更倾向于规则的准确率。如对财务管理职位进行挖掘,可得到如下分类规则:
(1)基于准确性的十二个拒绝规则:
规则一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade
规则三:如果Education=高中/中专;并且CompurerGrade
规则四:如果Sex=男;且WorkYear2;并且ComputerGrade
规则五:如果Education=高中/中专;并且Specialty=不符合;则拒绝。样本数:27,准确性:86.2%。
规则六:如果School
规则七:如果Education=大专;并且Specialty=不符合;并且ComputerGrade>1;则拒绝。样本数:45,准确性:83%。
规则九:若Sex=女;并且Age
规则十:如果Education=初中;则拒绝。样本数:12,准确性:75%。
规则十二:如果Place=符合;并且Education=大专;并且School>3;并且ComputerGrader>1;则拒绝。样本数:68,准确性:68.6%。
(2)基于准确性的四个接受规则
规则一:如果Married=单身;并且WorkYear=5-10;并且Education=本科;则接受。样本数:8,准确性:90%。
规则二:如果School
规则四:如果Specialty=符合;则接受。样本数:566,准确性:50.2%。
(3)基于普遍性的两个接受规则
规则一:如果R_School
(4)基于普遍性的四个拒绝规则
规则二:如果Education=高中/中专;则拒绝。样本数:103,准确性:74.3%。
规则四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;则拒绝。样本数:201,准确性:64.7%。
2.神经网络算法
本文希望数据训练的准确性尽量高一些,因此,在模型选择中选择使用最佳网络。节点训练结束后将会产生一个神经网络模型。神经网络算法挖掘的准确性在84%左右。
3.两种分类算法的比较
分类算法的分类质量一般可以用查全率和查准率来评价。
决策树算法和神经网络算法分别对A、B类样本中部分数据集1、2的挖掘情况比较如下所示:
(1)决策树和神经网络算法对数据集1的挖掘结果比较:
决策树算法
测试样本数:356,训练样本数:713,查准率:79.8%,查全率:75.1%,F1测试值:0.77,用时:1秒。
神经网络算法
测试样本数:428,训练样本数:713,查准率:83.95%,查全率:80.59%,F1测试值:0.82,用时:5分9秒。
(2)决策树和神经网络算法对数据集2的挖掘结果比较:
测试样本数:500,训练样本数:1000,查准率:81.02%,查全率:79.2%,F1测试值:0.80,用时:1秒。
测试样本数:600,训练样本数:1000,查准率:84.56%,查全率:82.34%,F1测试值:0.83,用时:1分33秒。
四、结束语
本文主要研究了数据挖掘技术在电子简历数据筛选中的应用,得到了一些有用的结论,但还存在一些不足。
参考文献:
[1]赵苏星:数据挖掘技术在人力资源管理中的应用[J].管理科学,2007,91.
[2]陈小颖:人力资源管理系统中数据挖掘技术的应用[D].武汉:武汉理工大学,2006.
关键词:垃圾邮件;中文分词;BP神经网;遗传算法
ResearchontheSystemofChineseSpamFilteringBasedonNeuralNet
YEYan1,LIPei-guo2
(1.ZengchengCollegeofSouthChinaNormalUniversity,Guangzhou,511363,China;2.Departmentofmathematics,JinanUniversity,Guangzhou510632,China)
Abstract:ThefloodingspamstakeuphugeInternetresourceandusertime.Especiallysomevirus-spams,theycandisablesomenormalInternetservice,orattackuser’scomputers.ItintroducesBPneuralnetworkasthefilteringalgorithm,optimizedbytheGeneticAlgorithm.WithChinesewordsegmentation,itdesignsandimplementsaChineseemailfilter.Atlast,itperformstrainingandtestingusingsampleemails,andanalysesthetestingresult.Theresultindicatesthatthefilteringalgorithmhasgoodrecallandprecisionratio.
Keywords:Spam;Chinesewordsegmentation;BPNeuralNetworks;GeneticAlgorithm
当前的垃圾邮件过滤技术,主要包括以下几类:关键词过滤,黑/白名单[2],逆向域名验证,基于规则过滤[3],特征词统计,等等。以上方法,分别在各种特定的情况下,能够达到一定的过滤效果。但是,随着垃圾邮件制造者的技术提高,以上的各种方法都存在各自的缺陷,不能达到很好的过滤效果。
本文采用基于邮件内容的过滤算法,无论任何伪装的情况下,邮件的内容是无法改变的,否则就无法达到发送者的目的,因此,基于内容的过滤算法能够在各种情况下,达到过滤效果。同时,引入BP神经网络作为过滤算法,利用BP神经网的自组织、自学习和联想存储等特点,设计并实现垃圾邮件过滤系统。同时,针对BP神经网在训练过程中,容易陷入局部最优解的问题[4],引入遗传算法来对BP神经网络进行优化,利用遗传算法的全局搜索能力,进一步提高BP神经网络的学习能力[5]。针对中文自身的特点,在过滤系统中,加入针对中文的自动分词模块,实现针对中文垃圾邮件的过滤。
1过滤系统的设计
过滤系统的主要思想:通过分析邮件的正文内容,提取其中的特征词汇,通过过滤模块进行垃圾邮件的识别;同时,加入了针对中文邮件的自动分词模块,达到对中文垃圾邮件的过滤;系统架构如图1所示。
1.1系统的流程
系统的流程主要包括两个过程:过滤系统的训练过程和未知邮件的过滤过程,分别如下:
1.1.1过滤系统训练
首先对邮件样本集进行预处理,得到待处理的样本邮件;然后通过中文自动分词,得到整个样本集的词汇统计表;根据词汇出现的频率,以及相应的代表性,选取出特征词汇;根据特征词汇表,将样本邮件转化为BP神经网络过滤模块的输入向量,从而对网络进行训练,生成最终具备识别能力的过滤模块。流程图如图2。
1.1.2未知邮件过滤
收到新邮件后,通过中文自动分词,得到邮件中的所有词汇;根据特征词汇表,生成该邮件对应的特征向量,输入到神经网络过滤模块中;根据过滤系统的输出结果,判定当前邮件是否为垃圾邮件;用户可以对过滤模块的判定结果进行反馈,系统会记录错判和误判的邮件数量,并根据对应的比例决定是否需要重新训练过滤模块。同时,根据当前邮件是否为垃圾邮件,将该邮件中出现的词汇更新到所有词汇的表中,并统计相应的“垃圾概率”,这样做的目的是为了定期的更新特征词汇,达到过滤系统能够不断学习的效果。
1.2系统结构
整个过滤系统采用模块化设计,共分为四个主要的模块:自动分词模块,特征词提取模块,BP神经网过滤模块,以及用户反馈模块,整体的结构如图3所示。
1.2.1自动分词模块
该模块主要实现的功能是将邮件的内容通过自动分词技术,得到对应的词的集合。需要完成操作包括:
1)邮件的编码识别,对于不同的邮件可能使用不同的编码,所以要针对各种编码,采用对应的解码方法对邮件进行解码,才能保证正确的读取邮件内容;
2)邮件内容的预处理,例如,去掉邮件的头信息;根据已知的一些拆/分词的特征,去除拆/分的标志,比如一些垃圾邮件发送者,会故意的在字与字之间加上空格,目的就是让自动分次技术不能够正确的进行分词,因此需要在预处理阶段去掉这些分隔符;
3)对邮件内容进行自动分词,得到邮件中的词语集合;
该模块的输入为邮件训练集,或者用户收到的邮件,输出为经过分词得到的词语集合。
1.2.2特征词提取模块
特征词提取模块的主要功能是在经过分词模块得到的词汇集合中,选出最有代表性的特征词,这些词汇最能够表明一封邮件是垃圾邮件,或者是正常邮件。该模块需要完成的操作包括以下几个:
1)词频的统计:在样本集邮件的分词结果中,统计出每个词在垃圾邮件中出现的次数,以及在正常邮件中出现的次数,从而计算出这个词汇的“垃圾概率”,即为:
2)提取特征词汇,即根据词汇的“垃圾概率”,取出最具代表性的词语;选择时需要考虑以下几个方面,词汇的“垃圾概率”,这个是在选取特征词时,比较重要的一个指标;但是,同时也要考虑词汇出现的次数,比如某个词只在一封垃圾邮件中出现,那么它的“垃圾概率”为1,但是它并不是最有代表性的词,因此,在选取特征词汇时,需要综合考虑这两个方面;
3)特征向量转换,将邮件按照特征词表,转换为代表该邮件的特征向量;
另外,在提取特征词时,可以结合使用禁用词表方法,该方法是通过对汉语的研究,总结出一些对于邮件内容没有很大的影响的词汇,比如“是”,“的”,各种数字,等等,这些词汇并没有实际的意义,因此,提取特征词时,应排除这些词汇。
1.2.3过滤模块设计
该模块是整个过滤系统的核心部分,通过样本邮件对过滤模块训练后,完成对未知邮件的过滤功能。整个过滤模块使用BP神经网络作为文本分类的算法,同时使用遗传算法对BP神经网络的各个参数进行优化,模型的设计图如图4。
其中,引入GA(遗传算法)优化器的目的是为了克服BP神经网容易陷入局部最优解的缺点,提高其全局搜索的能力。首先,将BP神经网的各个权值进行编码,通过GA优化器随机的产生初始的种群;对种群中的每个个体,经过解码后,构造对应的BP神经网;将样本训练集输入BP神经网,计算所有输出的均方误差;GA优化器根据均方误差,得到对应的适应度值,然后进行遗传优化,最终得到最优化的BP网络权值。
2过滤系统的实现
过滤系统的实现主要采用Java语言,使用SQLServer数据库来存放分词的结果,以及最终的关键词列表。过滤系统的实现包括两个关键的部分,自动分词模块和遗传优化的神经网络过滤模块。
2.1自动分词模块
本文采用ICTCLAS[6]中文分词系统来实现对邮件内容的自动分词,从而得到邮件的关键词列表,为下一步的特征词提取提供词库。具体的实现方法是:在代码中,调用ICTCLAS系统提供的API,对输入的邮件内容进行分词,并返回分词结果。
2.2过滤模块的实现
2.2.1BP神经网的实现
本文采用实用性很强的三层的BP神经网结构,即包含一个隐含层的BP网络。根据一般邮件的长度大概为100-200字,输入层节点数目确定为50个,即对应50个特征词汇,应该足以反映大部分邮件的特征;输出层采用一个输出节点,输出节点的意义为当前邮件为垃圾邮件的概率:越大则越可能为垃圾邮件;隐层节点数目,按照参考文献[7]提供的方法,确定数目为10。
BP神经网的实现,采用开源工程JOONE(JavaObjectOrientedNeuralEngine),作为BP神经网的实现框架,按照如上的网络结构,实现相应的BP网络结构。
2.2.2遗传优化BP网络
利用遗传算法可以优化BP网络的结构和各个权值,为了简化问题,本文只使用遗传算法来优化BP网络的权值部分。
首先需要解决的是编码问题,根据权值的连续性、高精度等特点,选取实数编码方案,提高编码精度,增加搜索空间。对BP网络各个权值的编码方法是将权值分为四个部分:
1)输入层到隐含层的权值:即由输入层到隐含层的连接的权值;2)隐含层的各节点的阈值;3)隐含层到输出层的权值:即由隐含层到输出层的连接的权值;4)输出层的各节点的阈值。编码得到的个体如下:
通过编码,就将BP网络的权值转化为遗传算法可以处理的染色体了,从而可以进行遗传优化,找到最优的权值编码。最后,再根据编码的规则,逆向解码得到最终的BP网络结构。
3系统测试与分析
本文采用中国教育和科研计算机网紧急响应组(CCERT),2005年搜集的邮件样本集,作为测试数据。在样本集中,选取一部分邮件作为训练数据,对BP网络过滤系统进行训练;另外一部分作为测试数据,对过滤系统的结果测试。具体测试数据如下:
练样本集大小:6113;垃圾邮件数:3110;正常邮件数:3003
测试样本集大小:200;垃圾邮件数:100;正常邮件数:100;判定阈值为:0.9
在以上的测试数据情况下,过滤系统在自动分词、特征词提取部分,表现出很好的性能;在采用遗传算法优化的BP网络训练过程中,能够快速的收敛,大大提高了训练能力。具体的测试结果如表1。
测试的结果表明,过滤系统具有较好的运行能力,在处理大量邮件时,运行速度相对较快,能够达到一般的性能要求。邮件过滤结果表明,过滤系统具有很高的准确率和查全率,在样本集相对完整和充足的情况下,能够起到很好的过滤效果。
4结论
针对中文垃圾邮件的过滤问题,本文采用了基于遗传算法优化的BP网络作为过滤算法,并结合中文自动分词技术,设计并实现了针对中文垃圾邮件的过滤系统。引入ICTCLAS系统作为中文自动分词模块,基于JOONE框架,来实现遗传算法优化的BP网络过滤模块。最后,通过系统的测试,分析了系统的性能和垃圾邮件过滤的查全率和准确率。测试结果表明,该过滤系统具有一定的实际价值,可以为垃圾邮件处理领域提供一个新的参考。
参考文献:
[1]中国互联网协会反垃圾邮件中心.2010年第二季度中国反垃圾邮件状况调查报告[R],2010.
[2]郑可馨,姜守旭,罗志云.垃圾邮件过滤系统的设计与实现[D].哈尔滨:哈尔滨工业大学,2004.
[3]潘文锋,王斌.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所,2004.
[4]余本国.BP神经网络局限性问题的讨论[J].微计算机信息,2007(8).
[5]SextonRS,DorseyRE.Reliableclassificationusingneuralnetworks:ageneticalgorithmandbackpropagationcomparison[J].DecisionSupportSystems,2000(30):11-22.
关键词:机器学习;图像处理;手写数字识别;SVM分类算法
图像是人们日常生活和工作中随时都会碰到的一种客观的静态描述,对数字图像的深入透彻研究大大方便了我们的生活。目前的对于数字识别的算法主要有K邻近分类算法[1-3]、BP神经网络算法[4]。K近邻分类算法本身简单有效,不需要分类器进行训练,但其计算量较大,可理解性差;传统的BP神经网络收敛速度慢,网络和学习记忆不稳定。本文使用SVM分类算法结合MNIST数据集进行数字的识别,SVM(supportvectormachine)即支持向量机是一种分类算法[5],其优点是在统计量样本数比较小的情况下也能获得较为准确的统计规律。本文着手于研究机器识别手写数字,此手写数字识别实验主要分为三个部分:图像采集、图像预处理、数字识别。
1图像预处理
对于摄取到的图片进行数字预处理是实验中重要的步骤之一是实验得出准确结果的前提。采集信号时,周围环境以及摄取设备对采集后的图片影响很大,若不进行图片预处理,往往很难得出正确结果。步骤如下:
1.1中值滤波
一幅图像中,噪声的出现会使噪声点处的像素值比其周围的像素值相差非常多。可把图像中某一块的数据中所有像素值按大小顺序排列,如此和其他像素值相差很大的噪声点处的像素就会被排到最前或者最末端,再将排在中间的像素值代替模块中的中间的目标像素值,便可有效去除噪声。
1.2直方图均衡化
直方图均衡化着重于图像灰度级的变换,目的是将图像灰度增强,它在实际工程中使用比较广泛。利用直方图均衡化可以将处理后的图像实际亮度集中的分布在亮度范围的中间区域。
1.3图像分割
对提取到的图片进行图片分割,可将想要得到的数字更清晰的呈现出来。对于最佳阈值的选取,可以采用遍历像素值[1~254]。
(1)首先人工设置初始阈值Th=Th0将原图分为两类;分别计算两类的类内方差:
(4)
(5)
(6)
(7)
(2)计算两个区域各自的分布概率
(8)
(9)
(3)像素遍历选择选择最佳阈值,根据以下公式判定
(10)
1.4形态学滤波
最基本的形态学滤波是腐蚀和膨胀,考虑到手写数字笔画可能会很粗不易于后期识别,所以采用膨胀的算法思路。一般膨胀是对二值图像进行处理,将此放在预处理最后一步。
2数字识别
得到摄像头采集并经过处理后的数字图片后,下一步便是识别。识别数字的方式有很多,本文我们使用支持向量机SVM分类算法来实现手写数字识别。深度学习一般的解决思路便是将大量实例用于训练学习,学习后的机器会产生自己的一套识别体系,利用训练好的系统去识别未知的数字。其中SVM分类算法就是这样一个基础的机器学习的思想,在获得大量样本进行大量学习形成学习系统之后,机器形成一套自己用来识别手写数字的规则。随着样本数量的增加,算法会学的更加精确,不断提升自身的准确性。通常对于分类问题,可以将数据集分成三部分:训练集、测试集、交叉验证集。用训练集训练系统从而生成对数字的学习模型,用后者进行准确性验证(优化参数)。在ubuntu上,大约运行十分钟便可以完成训练和预测测试集的结果。
采用MNIST数据集下载训练数据和测试文件。要注意,摄像机采集之后,为了增强识别效果,对采集到的数字图片进行预处理以达到手写数字图片库的数字模式使识别可以更加准确。MNIST数据库是一个手写数据库,它有60000个训练样本集,10000个测试样本集。它是NIST数据库的一个子集。下载后的文件并不是标准的图像格式,图像都保存在二进制文件中,每个样本图像的宽高为28*28。在进行编写匹配程序之前要把其转换为普通jpg格式的文件。
3结论
本文从识别手写数字字符识别入手,通过查阅大量资料得出一套完整的手写数字识别的方法体系,并且在Windows平台下,利用计算机视觉库OpenCv和CodeBlocks环境相结合进行实验,得出结果准确度高。采用的SVM分类算法与和典型的K邻近分类算法、BP神经网络算法相比,识别精度高。但是,在摄取图片背景复杂、图片曝光过度或不足、分辨率低的情况下,各算法还需要进一步完善。
参考文献
[1]陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大W学报(自然科学版).2005(01)
[2]钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学.2005(04)
[3]YufeiTao,DimitrisPapadias,NikosMamoulis,JunZhang.AnefficientcostmodelforK-NNsearchtechnicalreport.HKUST.2001
[4]王建梅,覃文忠.基于L-M算法的BP神经网络分类器[J].武汉大学学报(信息科学版).2005(10)
[5]奉国和,朱思铭.基于聚类的大样本支持向量机研究[J].计算机科学.2006(04)
基于OLED器件的封装材料研究进展
低氧环境下血氧序列的多尺度熵分析
基于多核超限学习机的实时心电信号分析
基于惯性传感的穿戴式跌倒预警防护系统
合成免疫策略治疗慢性乙肝病毒感染综述
EMT的表观遗传调控在癌症进程中的研究进展
类风湿性关节炎免疫发病机制的研究进展
三维点云中的二维标记检测
基于词项关联的短文本分类研究
一种离心式微流控生化分析芯片
电子封装基板材料研究进展及发展趋势
基于镍尖锥阵列的柔性超薄超级电容器
溶胶-凝胶法制备二氧化硅微球研究进展概述
一种求解汽车外流场问题的可扩展数值算法
国内汽车机械式自动变速器技术研究综述
一种基于圆的几何特性改进的圆检测随机算法
智能无线传感网络在温室环境监控中的应用研究
适用于R290聚醚酯型冷冻机油的合成及性能研究
基于神经网络模型的双混沌Hash函数构造
微流控芯片技术在心肌标志物检测中的应用综述
大数据层面的microRNA功能相似性分析
三维快速自旋回波(SPACE)——序列原理及其应用
多模态集成阿尔茨海默病和轻度认知障碍分类
一种基于顶帽变换和Otsu阈值的轨道边缘提取方法
ATP荧光检测法检测医院电梯按钮表面细菌总数
社会网络中信息传播与安全研究的现状和发展趋势
用于光遗传技术的体外细胞光刺激系统
基于曲线投影模型的电子断层三维重构并行算法
配准算法对PCA单幅投影肺部重建的影响
加速量热仪在锂离子电池热测试中的应用
定向生长碳纳米管阵列热界面材料技术研究
低剂量口腔CT成像系统关键技术与成像方法研究
深圳市液化天然气与混合动力巴士排放试验研究
基于超声平面波的功率多普勒成像方法研究
基于分层Dirichlet过程的频谱利用聚类和预测
基于AFE4400的无创血氧饱和度测量系统设计
基于Markov随机场的脑部三维磁共振血管造影数据的分割
基于模式预测的低复杂度高清视频帧内编码方法
基于Android智能手机内置传感器的人体运动识别
基于MEKF的直流无刷电机磁极位置与转速检测技术
一种基于模糊PID的3TPS/TP型并联机器人的控制算法
基于词频统计特征和GVP的大规模图像检索算法研究
数据中心保障应用服务质量面临的挑战与机遇
基于人工蜂群算法的胶囊内窥镜位姿磁定位研究
几种自适应线性判别分析方法在肌电假肢控制中的应用研究
基于相图的CZTSe光伏材料的形成路径设计和实验探索
关键词:大数据;金融监管;外汇管理
一、大数据定义及常用分析方法
二、大数据分析在金融监管领域主要运用场景
三、对大数据分析在外汇管理领域运用的思考
四、政策建议
关键词:深度置信网络;深度学习;受限波尔兹曼机;短信
Abstract:ToimprovethefilteringeffectofspamSMS,afeatureextractionalgorithmisproposedtoconvertSMScontentintofixedlengthvectorwithword2vectoolbytheanalysisofChineseSMScontentandstructurecharacteristics.Thedeepbeliefnets(DBN)weredesignedtolearnandclassify.Theexperimentalresultsshowthatthegeneralizationperformanceisincreasedbyabout5%incomparisonwiththereportedresults.
Keywords:deepbeliefnet;deeplearning;restrictedBoltzmannmachine;SMS
0引言
每年移动运营商和国家都花费了大量的人力和物力进行垃圾短信治理,但公众还是不满意治理效果。目前移动运营商主要采用软件过滤加人工干预的治理方式[13]。软件过滤的算法原理主要有3类:有监督学习、无监督学习和半监督学习。单纯的有监督学习[410]和无监督学习[1112]在垃圾短信过滤过程中的效果还是值得肯定的[410],但这些学习和过滤算法目前已经不能适应于市场和机器学习环境,特别是深度学习算法理论的完善和应用发展为机器学习提供了广阔空间[13]。
1短信内容向量化
1.1预处理
假设所有的短信集合记为[S,]记正规化过程对应的函数为[f1,]经过正规化处理的短信集合记为[G,]上面的过程可表达为:[s∈S,f1(s)∈G。]
1.2分词
本文采用中国科学院计算技术研究所ICTCLAS系统(网址:)分词。在分词后,如果内容包含有数字,需要按照下面要求处理:
1.3向量化
短信内容向量化算法过程描述如下:
(1)每类按照一定比例取出大约21280个训练样本。然后将每个短信正规化。
(3)对rubbish.txt,zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt,分别执行word2vec指令(格式:word2vectrain分词文件名output向量化结果文件名cbow0size5window10negative0hs1sample1e3threads2binary0),分别得到向量化结果文件rubbish.out,zp.out,ss.out,sy.out,sh.out,sp.out,qt.out。
向量化结果文件每行是一个词语向量。比如:担保0.0973180.062329-0.0685940.087311-0.023715。
(4)在zp.out,ss.out,sy.out,sh.out,sp.out,qt.out中只保留频率前20的主关键词(不包括“AA”,“BB”,“CC”,“DD”,“NN”)的词语向量,其余删除。
3实验
针对短信分类问题,有下面的结论:
(2)DBN+BP网络具有更好的训练和推广性能,因此在选择多隐层BP网络时,最好选择DBN+BP方式(见图4)。
(3)本文中的效果好于表1中其他模型,主要有两方面原因:首先在选择特征上,采用了word2vec工具将词向量化,考虑到了短信中词的语义特征和统计特征;其次选择DBN+BP模型,将监督和非监督学习有机结合起来,提高了学习效率和精度。
(4)为了提高效果,接下来的工作需要在DBN最后层的设计上不局限于BP网络;研究以单个汉字为单元的向量化对分类结果的影响;其他深度学习模型对效果的影响等理论上探讨。
[1]何蔓微,袁锐,刘建胜,等.垃圾短信的智能识别和实时处理[J].电信科学,2008(8):6164.
[2]李海波,许建明.垃圾短信的现状及过滤技术研究[J].硅谷,2011(24):110.
[3]周冰.垃圾短信过滤技术与应用[J].中国新通信,2014(6):78.
[4]秦建,孙秀锋,吴春明.“垃圾短信”监控的中文多模式模糊匹配算法[J].西南大学学报(自然科学版),2013,35(3):168172.
[5]李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程,2008,34(12):154156.
[6]张永军,刘金岭.基于特征词的垃圾短信分类器模型[J].计算机应用,2013,33(5):13341337.
[7]李慧,叶鸿,潘学瑞,等.基于SVM的垃圾短信过滤系统[J].计算机安全,2012,13(6):3438.
[8]冯鸥鹏.垃圾短信过滤中字特征与词特征对过滤效果的比较研究[D].北京:北京邮电大学,2011.
[9]徐易.基于短文本的分类算法研究[D].上海:上海交通大学,2010.
[10]万晓枫,惠孛.基于贝叶斯分类法的智能垃圾短信过滤系统[J].实验科学与技术,2013,11(5):4447.
[11]郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160162.
[12]LEQV.Buildinghighlevelfeaturesusinglargescaleunsupervisedlearning[C]//Proceedingsof2013IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.Vancouver:IEEE,2013:85958598.
[13]SCHMIDHUBERJ.Deeplearninginneuralnetworks:anoverview[J].Neuralnetworkstheofficialjournaloftheinternationalneuralnetworksociety,2014,61:85117.
[14]BENGIOY,SCHWENKH,SEHECAOJS,eta1.Aneuralprobabilisticlanguagemodel[J].Journalofmachinelearningresearch,2003,3(6):11371155.
[15]MIKOLOVT,CHENK,CORRADOG,eta1.Efficientestimationofwordrepresentationsinvectorspace[C]//Proceedingsof2013ICLRWorkshop.[S.l.:s.n.],2013:112.
[16]HINTONG,OSINDEROS,TEHY.Afastlearningalgorithmfordeepbeliefnets[J].Neuralcomputation,2006,18(7):15271554.
[17]TIELEMANT.TrainingrestrictedBoltzmannmachinesusingapproximationstothelikelihoodgradient[C]//Proceedingsof2008the25thInternationalConferenceonMachineLearning.[S.l.]:ACM,2008:10641071.
[18]刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):116.
[19]HUANGSC,HUANGYF.Boundsonthenumberofhiddenneuronsinmultilayerperceptrons[J].IEEEtransactionsonneuralnetworks,1991,21(1):4755.
关键词:农业病虫害;数据挖掘;关联规则;Apriori算法;决策规则
AgricultureDiseaseDiagnosisBasedonImprovedAprioriAlgorithm
MADong-lai1,ZHANGWen-jing2a,QUYun2b
(1.HebeiSoftwareInstitute,Baoding071000,Hebei,China;2a.CollegeofInformationScience&Technology;
2b.AcademicAffairsOffice,AgriculturalUniversityofHebei,Baoding071001,Hebei,China)
Abstract:ThebasicmethodofApriorialgorithmwasintroducedandmodifiedinthethreeaspectsincludingdataitemestablishment,frequentitemsetsconnectionandtherulegeneration.Decisionrulewassetupfordiagnosingdropdiseasesbytheimprovedalgorithm.
Keywords:cropdiseasesandpests;datamining;associationrule;Apriorialgorithm;decisionrule
收稿日期:2013-05-10
基金项目:河北省教育厅资助科研项目(Q2012139);2011年度河北农业大学青年科学基金项目(qj201238)
农业病虫害是影响农作物产量的一个重要因素。中国是农业大国,据统计,农作物受病虫害的影响每年可造成15%~25%的经济损失[1]。因此,农业病虫害的诊断与防治对农业和经济的发展具有重要意义[2]。一直以来,对农作物病害的诊断往往是依靠农民或专家的经验并结合多种检测手段进行。由于一些病虫害的差异细微,很容易造成误诊。不同种类的致病病原物会使农作物的叶部呈现不同的病斑形状。因此,在病害诊断中可将叶部病斑作为农作物病害的一个重要特征,对农作物的病害进行诊断[3]。
数据挖掘又称为数据库中知识发现(KnowledgeDiscoveryfromDatabase,简称KDD),是一种决策支持过程[4,5]。利用数据挖掘技术,可以在大量的农业数据中进行深层次的数据信息的分析,从而获得农作物病虫害产生的原因及环境等因素之间隐藏的内在联系,对于有效识别及预防农作物病虫害具有重要意义[6]。
1Apriori算法
2Apriori算法的改进
经典Apriori算法挖掘出的关联规则一般满足“A∧B∧C->D∧E”的模式。这些关联规则侧重于描述数据库中的一组对象之间相互的关联关系。而在农业病虫害诊断的实际应用中,需要的是形如“A∧B∧C∧D->E”的规则。即根据A、B、C、D等的病害特征,可以推导出所患病害的种类。这就需要对经典的Apriori算法进行一些改动。
表1是由历史经验取得的一组关于某种农作物病害的数据。以这组数据为例,介绍利用改进后的Apriori算法对农业病害进行诊断的方法。
2.1建立挖掘数据项
表1中每种病害的属性下都有几个不同的属性值。如属性“病斑颜色”共有“黑褐色病斑”、“粉红色病斑”和“褐色病斑”3个属性值。根据具体的病害数据的特点,将算法挖掘的数据项设置成“属性.属性值”的形式。各数据项的属性对照表如表2。
结合属性对照表,可将表1中原始的农业病害数据转换为适合挖掘的数据表(表3)。
2.2挖掘频繁项集
Apriori算法利用两个频繁(k-1)项集连接生成新的频繁k项集,前提是,这两个频繁(k-1)项集的前(k-2)项相同。如对于频繁3项集“1.3,2.2,3.2”和“1.3,2.2,3.3”,按照连接规则,应该生成新的候选4-项集“1.3,2.2,3.2,3.3”。根据表2,可知3.2和3.3是属性“病斑形状”的两种不同取值(“半圆形”和“不规则”)。即项集3.2和3.3是互斥的关系,不可能共存。因此,对这种情况不进行连接。按照这种新的连接规则,对于表3的农业病害数据库进行挖掘,再经过最小支持度10%的筛选,最终得到的为频繁5-项集(表4)。
2.3生成诊断规则
找出最大频繁项集之后,Apriori便开始生成关联规则。具体方法是:生成频繁项集L的所有非空子集,并依次计算每个非空子集S的置信度。若置信度不小于用户事先设定的最小置信度阈值,则生成一个关联规则“S->(L-S)”。如对频繁项集“1.1,2.1,3.1,4.1,5.1”可以生成规则“1.1∧2.1∧3.1->4.1∧5.1”,这样,规则的右端也是多个属性的集合。这种关联规则侧重于描述多个属性项之间的关联关系,而非一个可以推导出结论的决策规则。
在农业病害诊断中,单单几个病害属性间的关联关系是没有实际意义的,需要挖掘出一个可以帮助专家进行病害诊断的决策规则。即形似“A∧B∧C->D”的规则。按照这种需求,首先对于类别属性“病害名称”(即5.1,5.2,5.3)只能出现在规则的右端;其次在规则的右端,除了“病害名称”属性之外,不能再出现其他的属性。只有同时满足这两个条件的规则才是有意义的。
按照这一要求,在产生规则时,只需计算除“病害名称”属性之外的子集的置信度(保证规则的右端L-S为“病害名称”)。如,对挖掘出的频繁5-项集“1.1,2.1,3.1,4.1,5.1”,只计算除去“病害名称”属性5.1的所有子集的置信度,再按照“置信度不小于最小置信度阈值”的条件进行筛选,最后生成的决策规则如表5。
将表5和属性对照表(表2)对照后,可转换成直观的规则,如表6所示。这样专家就可以结合表6对农作物的具体病害做出一个更为准确的判断。
3小结
农作物病害的诊断具有重要的经济意义。利用数据挖掘技术,按病害部位、病害特征等属性对大量的数据进行分析,可以验证已知的经验规律,揭示出未知的隐藏信息。进一步将其模型化,可以挖掘出隐藏的农作物病虫害的发病特征、变异等信息,带来巨大的社会效益和经济效益。
另外,利用改进的Apriori算法还可以挖掘出医学等其他领域的决策规则,并可以建立各种知识库,建立专家系统,拓展关联规则Apriori算法的应用范围。
[1]刘乃森,刘福霞.人工神经网络及其在植物保护中的应用[J].安徽农业科学,2006,34(23):6237-6238.
[2]黄光明.Apriori算法在农业病虫害分析中的应用[J].安徽农业科学,2009,37(13):6028-6029.
[3]金海月,宋凯.决策树算法在农业病害诊断中的应用[J].当代农机,2007(5):76-77.
[4]张永宾.DM在分析客户忠诚度的应用[J].商场现代化,2008(34):38-39.
[5]李斗,李弼程.一种神经网络文本分类器的设计与实现[J].计算机工程与应用,2005(17):107-109.
[6]谢艳新.数据挖掘技术在水稻病虫害系统中的设计与实现[J].湖北农业科学,2011,50(11):2340-2342.
[7]谢宗毅.关联规则挖掘Apriori算法的研究与改进[J].杭州电子科技大学学报,2006,26(3):78-82.
关键词:电力设备检修;文本数据;文本挖掘;大数据挖掘
1非结构化数据概述
2文本挖掘技术
2.1文本挖掘
文本挖掘的对象是用自然语言描述的语句、论文、Web页面等非结构化文本信息,这类信息无法使用结构化数据的挖掘方法进行处理;文本挖掘指通过对单个词语和语法的精准分析,通过分析结构在海量的非结构化数据中检索意思相近的词语、句子或者信息[3]。
2.2文本挖掘流程
挖掘流程如图1所示。图1挖掘流程Fig.1Miningprocedure1)文本预处理:把与任务直接关联的信息文本转化成可以让文本挖掘工具处理的形式,这个过程分3步:分段;预读文本,把文本特征展现出来;特征抽取。2)文本挖掘:完成文本特征抽取后,通过智能机器检索工具识别符合主题目标的文段信息,在海量信息或者用户指定的数据域中搜索与文本预处理后得出的文本特征相符或相近的数据信息,然后通过进一步识别和判断,达到精确检索的目的,这是一个非常复杂的过程,纵跨了多个学科,包括智能技术、信息技术、智能识别技术、非结构数据库技术、可视化技术、预处理技术、读码技术等。3)模式评估:模式评估是用户根据自己的需求主题设置符合自己需求主题或目标的模式,把挖掘到的文本或信息与自己设置的模式进行匹配,如果发现符合主题要求,则存储该数据和模式以方便用户调用,如果不符合,则跳转回原来的环节进行重新检索,然后进行下一个匹配过程的模式评估。
2.3文本挖掘技术分析
2.3.1数据预处理技术
文本数据预处理技术大致可分为分词技术、特征表示以及特征提取法。1)分词技术主要有两大类:一种为针对词库的分词算法;另一种为针对无词典的分词技术。前者主要包含正向最大/小匹配和反向匹配等。而后者的基础思路为:在统计词频的基础上,把原文中紧密相连的2个字当作一个词来统计其出现的次数,若频率较高,就有可能是一个词,当该频率达到了预设阈值,就可把其当作一个词来进行索引。2)特征表示通常是把对应的特征项作为本文的标示,在进行文本挖掘时只需要处理相对应的特征项,就能完成非结构化的文本处理,直接实现结构化转换目的。特征表示的建立过程实际上就是挖掘模型的建立过程,其模型可分为多种类型,如向量空间模型与概率型等[5]。3)特征提取法通常是建立起特定的评价函数,以此评价完所有特征,然后把这些特征依照评价值的高低顺序进行排列,将评价值最高项作为优选项。在实际文本处理过程中所应用的评价函数主要包括信息增益、互信息以及词频等。
2.3.2挖掘常用技术
从文本挖掘技术的研究和应用情况来看,在现有的文本挖掘技术类别中应用较为广泛的主要包括文本分类、自动文摘以及文本聚类[4-5]。1)文本分类。文本分类是给机器添加相应的分类模型,当用户阅读文本时能够更为便捷,在搜索文本信息时,能够在所设定的搜索范围内快速和准确的获取。用于文本分类的算法较多,主要有决策树、贝叶斯分类、支持向量机(SVM)、向量空间模型(VectorSpaceModel,VSM)、逻辑回归(LogisticRegression,LR)以及神经网络等。2)自动文摘。自动文摘是通过计算机技术智能的把原文的中心内容浓缩成简短、连续的文字段落,以此来尽可能地降低用户阅读的文本信息量。3)文本聚类。文本聚类与文本分类的作用大抵相同,所实施的过程有所区别。文本聚类是将内容相近的文本归到同个类别,尽可能地区分内容不同的文本。其标准通常可以依照文本属性或者文本内容来进行聚类。聚类方法大致可分为平面划分法与层次聚类法。另外,除了上述常用的文本挖掘技术,许多研究还涉及关联分析、分布预测分析和结构分析等。
2.3.3文本挖掘系统模式评估方法
3电力行业文本挖掘可研究实例
文本挖掘技术在国内电力行业属于新兴的前沿领域,对从业人员的素质要求相对比较高。由于现阶段知识和技术层面上匮乏,国家电网几乎没有关于此方面的项目实施。本节通过2个电力运营监测业务的应用需求,初步探讨文本挖掘的建模过程。
3.1电力运营监测业务应用需求
1)检修资金投入工作效能分析场景分析。大检修和技改是保障电网安全的重要工作。由于运检业务系统的数据质量问题,通过对量化数据的统计,无法准确掌握大修、技改资金投入的工作效能情况。但设备的实际运行状态可以通过文本类故障记录、运行日志等进行反映,因此,采用文本挖掘技术对检修工作效能进行分析与可视化展现,同时结合传统的统计方法,实现对大修技改资金投入工作效能的分析和监测。例如,可以通过分析历年的故障记录信息,反映出每年主要故障变化情况,进而结合每年大修技改资金投入情况,分析资金投入是否与预期目标相一致。2)家族缺陷识别分析。家族缺陷是指同一厂家生产的同一型号、同一批次的设备在运行过程中出现了相同或相似的缺陷。家族缺陷识别分析是通过对运行记录、故障记录等设备运行文本信息的挖掘和可视化分析,对设备家族缺陷进行识别。该场景既可以辅助基层业务人员对家族缺陷进行准确判断,同时可以作为一种辅助手段为总部专家判定家族缺陷提供参考,从而实现对家族缺陷辨识方式的优化,并基于此为检修计划制定、厂商评价、采购建议等提供决策支撑。
3.2文本分析建模过程
3.3文本分析应用及成效
4结语
国家电网文本挖掘的目的是从海量数据中抽取隐含的、未知的、有价值的文本数据,利用数据挖掘技术处理电力公司文本数据,将会给企业带来巨大的商业价值。本文提出的关于检修资金投入工作效能分析和家族缺陷识别分析2个文本挖掘实例只是文本挖掘在电力行业应用的一角。如今,数据挖掘技术与电力行业正处于快速发展阶段,文本挖掘的应用将越来越广泛。下一阶段的研究目标是探寻有效办法将数据挖掘技术融入到文本挖掘领域的实际应用中,使得国家电网文本挖掘项目得以顺利实施,并达到预期成效。
作者:吕旭明雷振江赵永彬由广浩单位:国网辽宁省电力有限公司国网辽宁省电力有限公司信息通信分公司
[1]费尔德曼.文本挖掘(英文版)[M].北京:人民邮电出版社,2009.
[2]孙涛.面向半结构化的数据模型和数据挖掘方法研究[D].吉林:吉林大学,2010.
[3]胡健,杨炳儒,宋泽锋,等.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.
关键词:文本挖掘;文本特征表示;特征提取;模式识别
文本挖掘主要完成从大量的文档中发现隐含知识和模式的任务,一般处理的对象都是海量、异构、分布的文档。传统数据挖掘所处理的数据是结构化存储于数据库当中,而文档都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中表示文本,使之包含足够的信息反映文本的特征。目前的网络信息中80%是以文本的形式存放,Web文本挖掘是Web内容挖掘的重要内容。
文本的表示与特征提取是文本挖掘领域中的基本问题。目前通常采用向量空间模型生成文本向量来表示非结构化的文本数据。但直接通过分词与词频统计得到的高维度文本向量作为文本表示,不仅给文本理解等后续任务,比如:文本分类、聚类等,带来巨大的计算开销,且精确也会受到影响。因此,研究有效的文本特征选择与压缩方法来进行降维处理,是十分必要的。
目前有P文本表示的研究主要集中在文本表示模型方法与特征选择算法方面。用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中,采用字、词或短语作为表示文本的特征项。目前大多数中文文本分类系统都采用词作为特征项。(但考虑到文本挖掘的不同具体任务,有时也会将字或者短语作为特征项。)如果把所有的词都作为特征项,那么其特征向量的维数将非常高,要高性能地完成文本分类、聚类等文本理解任务将非常困难。特征提取与压缩主要是为了保持文本核心信息表达的同时,尽量降低特征向量的维度,从而提高文本处理的效率。
特征提取主要有如下四种思路:一是用映射或变换的方法把原始特征变换为较少的新特征;二是从原始特征中选取一些最具代表性的特征;三是根据专家知识选取最有影响的特征;四是用统计方法找出最具分类信息的特征,这种方法适合于文本分类任务。下面将从文本特征评估方法、文本特征选择方法、以及基于领域语义理解的文本特征提取方法等方面,对文本表示与特征提取研究领域现有的研究成果进行综述,然后再展望未来文本特征表示与提取技术可能的研究热点。
1主流基于统计的文本特征评估方法
1.1词频(TF:TermFrequency)、文档频度(DF:DocumentFrequency)与TFIDF
(1)词频(TF:TermFrequency):即一个词在文档中出现的次数。将词频小于某一阈值的词删除,从而降低特征空间的维数,完成特征选择。该方法是基于出现频率小的词对文本表达的贡献也小这一假设。但有时在信息检索方面,频率小的词可能含有更多信息。因此,不宜简单地根据词频来选择特征词。
(2)文档频度(DF:DocumentFrequency):即统计在整个数据集中有多少个文档包含该词。在训练文本集中对每个特征词计算其文档频度,并且根据预设阈值去除那些文档频度超高或超低的特征词。文档频度的计算复杂度较低,适用于任何语料,常用于语特征降维。
考虑到文档频度超高或超低的特征词分别代表了“代表性弱”或“区分度低”这两种极端情况,故而需要删除。DF的缺陷是有些稀有词可能在某一类文本中并不稀有,即可能包含着重要的类别信息,如果舍弃将可能影响分类精度。
(3)TFIDF:它是由Salton在1988年提出的。其中IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF的基本假设是在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然;同时考虑单词含有的类别区分能力,即:认为一个单词出现的文档频率越小,其类别区分能力越大。
互信息:互信息用于衡量某个词和某个类别之间的统计独立关系。
二次信息熵:将二次熵函数取代互信息中的Shannon熵,形成基于二次熵的互信息评估函数。它克服了互信息的随机性。作为信息的整体测度,比互信息最大化的计算复杂度要小,可提高分类任务征选取的效率。
信息增益方法:用于度量已知一个特征词在某类别的文本中是否出现对该类别预测的影响程度。信息增益是一种基于熵的评估方法,用于评估某特征词为整个分类所能提供的信息量,即:不考虑任何特征词的熵与考虑该特征后的熵的差值。根据训练数据,计算出各个特征词的信息增益,删除信息增益很小的,其余的按照信息增益从大到小排序。某个特征项的信息增益值越大,对分类也越重要。
信息增益最大的问题是:它只能考察特征词对整个分类系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。
2主流的文本特征选择方法
2.1N-Gram算法
其基本思想是将文本内容按字节流进行大小为N的滑动窗口分段,形成长度为N的字节片段序列。每个字节片段称为一个N-Gram单元,对全部N-Gram单元的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键N-Gram列表,作为该文本的特征向量空间。由于N-Gram算法可避免中文分词错误的影响,适用于中文文本处理。中文文本处理大多采用双字节进行分解,即:bigram。但是bigram切分方法在处理20%左右的中文多字~时,会产生语义和语序方面的偏差。而对于专业领域文本数据,多字词常常是文本的核心特征,处理错误将导致负面影响。于是有研究者提出改进的基于N-Gram文本特征提取算法,即:在进行bigram切分时,不仅统计bigram的出现频度,还统计某个bigram与其前邻bigram的共现情况。当共现频率大于预设阈值时,将其合并成为多字特征词。该算法,较好地弥补N-Gram算法在处理多字词方面的缺陷。
2.2主成分分析算法
该算法通过搜索最能代表原数据的正交向量,建立一个替换的、较小的特征集合,将原数据投影到这个较小的集合。主成分分析(PCA)按其处理方式的不同,又分为数据方法和矩阵方法。矩阵方法中,所有数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。考虑到矩阵方法的计算复杂度随着数据维度n的增加,以n的二次方增长,有研究者提出了使用Hebbian学习规则的PCA神经网络方法。
2.3遗传算法与模拟退火算法
(1)遗传算法(GeneticAlgorithm,GA):是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。如果将文本看作是由若干个特征词构成的多维空间,那么将文本特征提取问题就转化为了文本空间的寻优过程。有研究者已经将遗传算法应用于这个寻优过程中。首先对文本空间进行编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到文本的最优特征向量。
(2)模拟退火算法:将特征选取看作组合优化的问题,因而可以使用解决优化问题的方法来解决特征选取的问题。模拟退火算法(SimulatingAnneal,SA)就是其中一种方法。将模拟退火算法运用到特征选取中,理论上可以找到全局最优解,但在初始温度的选取和邻域的选取时,需要找到有效的策略来综合考虑解的性能和算法的速度。
3词向量(wordembedding)
4基于领域语义理解的文本特征提取方法
4.1基于语境框架的文本特征提取方法
有研究者发现,单单依靠统计无法完成语义分析。没有考虑句子的语义以及句子间的关系的情况下,无法提取准确的文本特征向量来表达文本语义。因此,研究者提出将语义分析与统计算法相结合的语境框架算法,并获得了丰富的研究成果。可以将语境框架看作是一个三维的语义描述框架,即:把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个模块。在语境框架的基础上,从语义分析入手,实现了四元组表示的领域提取算法、以领域句类为核心的情景提取算法、以对象语义立场网络图为基础的褒贬判断算法。该算法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力。
4.2基于本体论的文本特征提取方法
有研究者提出了应用本体论(Ontology)模型,有效地解决特定领域知识的描述问题。比如:针对数字图像领域的文本特征提取问题,可以通过构建文本结构树,给出特征权值的计算公式。算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法,能够更准确地进行特征词权值的计算和文本特征的提取。
4.3基于Z义网络的概念特征提取方法
5总结与展望
本文对近年来文本特征提取研究领域所取得的研究成果进行了全面的综述。随着人工智能深度学习技术的发展,在未来几年中,将可能从以下几个方面取得突破:(1)文本特征提取及文本挖掘在专业领域,比如:金融领域、军事领域等的应用研究。(2)新的文本特征表示模型,比如考虑使用层次结构的向量对文本进行建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析。(3)改进分词算法。比如针对特征提取的需要,应用深度学习算法框架,建构高性能的分词系统。(4)改进特征评价函数。比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码,即对特征词的权重从表达文本结构与文本语义两个层面进行评价。
责编/魏晓文
[1]BengioY,SchwenkH,SenécalJ,etal.NeuralProbabilisticLanguageModels[J].JournalofMachineLearningResearch,2003,3(6):1137-1155.
[2]SaltonG,BuckleyC.Buckley,C.:Term-WeightingApproachesinAutomaticTextRetrieval.InformationProcessing&Management24(5),513-523[J].InformationProcessing&Management,1988,24(5):513-523.
[3]刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137.
[4]成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报(自然科学版),2013,33(5):63-68.
[5]CavnarWB,TrenkleJM.N-Gram-BasedTextCategorization[C]//InProceedingsofSDAIR-94,3rdAnnualSymposiumonDocumentAnalysisandInformationRetrieval.LasVegas,US.1994:161--175.
[6]陈素芬,曾雪强.中心修正增量主成分分析及其在文本分类中的应用[J].中文信息学报,2016,30(1):108-114..
[7]郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107.
[8]晋耀红,苗传江.一个基于语境框架的文本特征提取算法[J].计算机研究与发展,2004,41(4):582-586.