基于人民网新闻标题的短文本自动分类研究传媒

自动文本分类技术将人类从繁琐的手工分类中解放出来,使分类任务变的更为高效,为进一步的数据挖掘和分析奠定基础。对于新闻来说,简短的新闻标题是新闻内容的高度总结,针对短文本的分类研究一直是自动文本分类技术的研究热点。本文基于人民网观点频道中的数据,采用深度学习中的卷积神经网络(CNN)和循环神经网络中的长短时记忆模型(LSTM)组合起来,捕捉短文本表达的语义,对短文本自动文本分类进行智能化实现,为新闻网站的新闻分类实现提供参考。

关键字:深度学习,LSTM,CNN,新闻,文本分类

一、引言

面对规模巨大且不断增长的文本信息,依靠人工将海量的文本信息分类是不现实的。近些年来,借助机器学习技术完成分类任务已成为主流[1][2],计算机可以通过不断学习获得经验技能,对未知的问题可以给出一个正确的分类标签。因此,通过机器学习,可以对新闻平台上的大量数据进行自动化分类,帮助用户提高检索效率,提升用户阅读体验,同时可以在分类的基础上分析与挖掘有用的信息,协助网站运营人员了解用户需求,让信息更有效的被利用,这也是本文的研究意义所在。

二、研究背景及现状

而新闻文本分类问题,几乎是伴随着新闻本身而生的。从传统的报纸媒体开始,就有手工分类。但是随着网络化的普及以及新闻更新的高频性,新闻网络平台中出现了大量的新闻信息累积,手工分类已经难以满足目前的数据需求。新闻数据的文本分类是中文文本分类的重要的研究方向之一,网络平台上的新闻文本数据库,是研究中文本文分类的重要数据源。

因此,本文面向网络新闻平台本文数据,充分考虑短文本特征,提出了集成机器学习算法和深度学习算法的CNN+LSTM分类模型,力图解决新闻自动分类问题。

三、分类方法原理

3.1、文本分类算法

一般来说,文本分类模型需要提前标注好类别的语料作为训练集,属于有监督的学习,核心问题是选择合适的分类算法,构建分类模型。本文采用了随机梯度下降、在线被动攻击算法、线性支持向量分类、岭回归和梯度提升5种分类算法,集成构成模型。

随机梯度下降(SGD)通过一次只考虑单个训练样本来近似真实的梯度,算法在训练样本上遍历,用每一个样本对模型的权重参数进行一次更新。和梯度下降相比,SGD使用单个样本来近似,收敛速度快,对高维度特征适应性较好,但计算得到的并不是准确的一个梯度,容易陷入到局部最优解中。而梯度下降的代价函数计算需要遍历所有样本,每次迭代都要遍历,直至达到局部最优解。但是在面临训练集较大的情况,梯度下降的收敛速度比较慢,兼顾计算量和效率,SGD不失为一种折中的选择。

线性支持向量分类(LinearSVC)是基于liblinear实现的线性支持向量分类器,它在惩罚和丢失函数的选择上具有更大的灵活性,计算效率高,可以更好的适应较大的训练集。

岭回归(RidgeRegression)是一种专门用于共线性数据分析的有偏估计方法,是一种改良的最小二乘估计法,它放弃最小二乘的无偏性,通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题,以损失部分信息、降低精度为代价,获得更符合实际的回归系数,最大限度地减少了一个惩罚的误差平方和。

梯度提升(GradientBoosting)。Boosting是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。GradientBoosting就是对Boosting思想的一种实现,它是以弱预测模型的集合的形式产生预测模型。通过调节决策树的数目、树的最大深度,叶子节点包含样本的最大数目等参数,可以调节模型的性能。

3.2卷积神经网络(CNN)

本文采用了卷积神经网络作为深度学习模型,捕捉文本中邻接词的语义的特点,得到文本可能的邻接词语义组合序列。卷积神经网络是人工神经网络的一种,如图1,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量,避免了传统识别算法中复杂的特征提取和数据重建过程。[9]

卷积神经网络中主要包括卷积层、池化/采样层、全连接层等结构。

卷积层会将一个二维数据通过过滤器过滤,卷积计算如图2所示:

四、新闻分类模型

本文提出的新闻标题分类模型,首先选择了随机梯度下降、在线被动攻击算法、线性支持向量分类、岭回归和梯度提升5种机器学习算法集成训练,然后将深度学习中的卷积神经网络(CNN)和循环神经网络中的长短时记忆模型(LSTM)组合起来,综合考虑近邻信息和长序信息,下层利用CNN对邻接词的语义捕捉的特点得到文本可能的邻接词语义组合序列,上层利用LSTM来整体把握文本的上下文语义关系。然后进行模型集成,形成最终模型。

4.1机器学习算法集成

SGD、PA、LinearSVC、RidgeRegression这些算法均是基于词袋模型,自变量是特征词典的大小,所以为了后期更方便地进行模型调优,在自变量的初步筛选中,按照特征工程的流程,对特征词典进行了分组测试,选取特征词典维度为[10000,45000]区间分8组进行试验。

在自变量初步筛选的基础上,对各个算法进行参数调优,从而得到算法的初步调优结果。经实验对比发现,当特征数为35000时,各个模型的F1值达到最好,即当特征词典选取为35000时,可作为最终训练参数。当特征数目较少时,不能很好的对文本语义的完整度进行建模,当特征数目过多时,反而会引入较多的语义噪声。特征工程的目的在于能够找到一组超参数,找到二者的权衡点,达到模型既能对文本语义有很好的建模,又能最大程度的降低噪声的影响。如表1所示,是各个模型在特征参数为35000时的准确率、召回率和F1值:

为了提高整体模型的泛化能力和分类性能,本文采用了ensemble集成的思想,将上述5个机器学习算法集成使用,如图8所示。调优过程选取了比较常用的套袋算法(bagging),bagging是bootstrapaggregating的缩写,是第一批用于多分类器集成算法,该集成方法包括在一个训练集合上重复训练得到的多个分类器。给定一个大小为N的训练集合,bagging方法构建了n个新的训练集合S1,S2...Sn,每个训练集合都是由随机抽取的N个样本进行训练得到的。

在分类预测的过程中,集成模型形成类似委员会机制,每个模型对待分类的文本都有一个预测标签,最后的输出标签根据所有分类器的统计投票确定。各模型的预测标签越一致,则分类的置信度越高,反之,各个模型的分类标签差别越大,分类的置信度越低。

4.2深度学习算法集成

传统的机器学习算法召回率较高,但在上下文语义的理解上不如深度学习。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

本文主要采用深度学习中的卷积神经网络(CNN)和循环神经网络中的长短时记忆模型(LSTM)组合起来,捕捉短文本表达的语义,并在语义识别效果上,要优于基于词袋模型的普通机器学习算法[11][12]。卷积神经网络(CNN)通过借助不同的滤波器尺寸(filtersize)可以有效捕捉文本邻接组合词的语义;长短时序模型(LSTM)有利于解决上下文语义的长时依赖问题。

4.3算法评价指标

算法评价矩阵一般指对于算法预测效果和实际值的比较在本文中,采用了常用的分类衡量指标准确率(Accuracy)、召回率(Recall)和基于二者的调和平均值的综合指标F1值。

(8)

五、实验过程

5.1数据选择及数据预处理

字符在文本中并不具备具体的语义,只是起到语义停顿、连接、结束的作用,在文本分类上,经常作为无用字符处理。一般的处理方法是直接匹配过滤。因此,本文采用正则匹配的方法,对输入的文本数据进行全角半角转换、标点字符匹配过滤等操作。

中文文本并不像英文文本那样,带有空格作为各个单词的分隔符。在汉语表达中,词可以看作是语义的最小单元。中文文本分类中,经常采用分词操作对一段汉语文本进行切词处理,即将文本表示成多个中文词语的形式。文本分词,有利于后续采用向量空间模型进行算法模型训练。目前业界常见的分词工具包括jieba分词、清华的分词工具以及斯坦福的分词包。其中jieba分词在词性标注、分词准确率、分词粒度和性能上都相对较好,因此本文主要采用jieba(0.38版本)进行文本分词操作。

5.2文本表示

文本表示,也称为文本向量化,就是把文本表达为可以让计算机来理解的形式。常见的文本向量化手段包括词袋模型(bagofwords)和文本分布式表示(如Word2vec)。本文中采用了多个机器学习算法和深度学习算法,其中在机器学习算法中,主要采用了词袋模型,即通过进行特征工程,筛选出主要贡献度大的特征和特征数目,构建特征词典,进而将文本词映射为词ID;在深度学习模型中,主要采用文本分布式表示,本文采用了预训练的Word2vec向量,为保证预训练的语料尽可能正确的表示中文词的语义空间,采用了搜狗实验室3.5G的全网语料,选取语义空间维度100进行无监督训练得到,每一维度用浮点型数据表示。

整个数据预处理过程及文本表示如表2所示。

5.3模型参数

本文将深度学习模型与机器学习模型集成在一起,各取所长,在分类效果上取得了更好的结果。在对文本进行相同方法的预处理以后,并非像机器学习那样,利用词袋模型构建文本向量,而是采用预训练的word2vec进行词到语义空间的映射。每个词id都被表征为语义空间的100维的向量,每条文本表示为sequence_len×100的二维数组。训练采用batch的方式进行训练。表3是深度学习时的各个参数配置说明。

基于深度学习的模型在泛化能力上具有很大的优势,能够避免基于词袋模型的机器学习对部分词比较敏感的问题。当文本的长度低于一定值时深度学习模型可能存在较大的误差,为了解决超短文本带来的偏差,此项目采用了以深度模型为主,机器学习模型为辅助的集成模型,同时在部分类目上采用深度优先的原则,即深度模型具有一票否决权。

5.4实验结果示例

将人民网观点频道中的新闻标题,利用机器学习算法和CNN+LSTM深度学习算法集成的模型进行分类,正确预测的几种典型标题及对应的分类标签和结果如表4所示,其中标签1代表文化,标签8代表教育,10代表农业。

六、结论

针对中文短文本的特点,本文以新闻标题为实验数据,利用word2vec有效地提取新闻标题中语义信息,构建了基于机器学习和深度学习的分类模型,实现了网络新闻平台上新闻标题的自动分类,对新闻网站的建设及更深一步的信息挖掘,有一定的推动意义。未来,可以以此为基础,分析用户的阅读新闻的类型喜好,实现新闻个性化推荐,给用户带来更良好的体验与服务。

THE END
1.机器学习分类算法详解机器学习算法分类机器学习中的分类算法是用于将输入数据分配到预定义类别中的算法。分类任务是监督学习的一种,模型根据训练数据中的输入-输出对进行学习,然后预测新的输入数据的类别。常见的分类算法包括: 逻辑回归(Logistic Regression) k-近邻(k-Nearest Neighbors, k-NN) https://blog.csdn.net/a6181816/article/details/139317333
2.回归分类与聚类:三大方向剖解机器学习算法的优缺点机器之心对机器学习算法进行分类不是一件容易的事情,总的来看,有如下几种方式:生成与判别、参数与非参数、监督与非监督等等。 然而,就实践经验来看,这些都不是实战过程中最有效的分类算法的方式。因为对于应用机器学习而言,开发者一般会在脑海中有一个最终目标,比如预测一个结果或是对你的观察进行分类。 https://www.jiqizhixin.com/articles/2017-05-20-3
3.[MachineLearning]机器学习常见算法分类汇总Poll的笔记机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的分类。 博主在原创基础上加入了遗传算法(2.9)的介绍,这样一来,本篇博文所包含的机器学习算法更加全面丰富。该博文属于总结型文章,https://www.cnblogs.com/maybe2030/p/4665816.html
4.机器学习算法分类大全机器学习算法可以分为监督学习算法、无监督学习算法和半监督学习算法,下面以思维导图的形式总结了一下常见的监督学习和无监督学习算法,简单写了一下各种机器学习算法的分类: (1)监督学习:主要以分类、回归、概率图模型来写思维导图。 监督学习思维导图 https://www.jianshu.com/p/48a7f5fa44b3
5.机器学习算法的分类机器学习算法的分类 一、监督学习根据有无标签分类 根据有无标签,监督学习可分类为:传统的监督学习(Traditional Supervised Learning)、非监督学习(Unsupervised Learning)、半监督学习(Semi-supervised Learning)。 (1)传统的监督学习 传统的监督学习的每个训练数据均具有标签(标签可被理解为每个训练数据的正确输出,计算机https://www.elecfans.com/d/2061025.html
6.机器学习中常用的几种分类算法,如何选择合适的算法?今天和大家分享一下机器学习中常见的六种分类算法:K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林、AdaBoost、GBDT、XGBoost。 下面,介绍了各个算法的概念及特点。 KNN 决策树 朴素贝叶斯 逻辑回归 支持向量机 随机森林 AdaBoost GBDT XGBoost https://www.wokahui.com/article/industry/2697.html
7.机器学习中常见的六种分类算法(附Python源码+数据集)今天和大家学习一下机器学习中常见的六种分类算法,如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林 除了介绍这六种不同分类算法外,还附上对应的Python代码案例,并分析各自的优缺点。 01 K近邻(KNN) k-近邻算法KNN就是K-Nearest neighbors Algorithms的简称,它采用测量不同特征值之间的距离方法进行分类https://blog.51cto.com/u_11949039/4882936
8.科学网—[转载]联邦学习算法综述摘要:近年来,联邦学习作为解决数据孤岛问题的技术被广泛关注,已经开始被应用于金融、医疗健康以及智慧城市等领域。从3个层面系统阐述联邦学习算法。首先通过联邦学习的定义、架构、分类以及与传统分布式学习的对比来阐述联邦学习的概念;然后基于机器学习和深度学习对目前各类联邦学习算法进行分类比较和深入分析;最后分别从通信https://blog.sciencenet.cn/blog-3472670-1280769.html
9.轻松看懂机器学习十大常用算法轻松看懂机器学习十大常用算法 通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。https://mse.xauat.edu.cn/info/1017/1739.htm
10.《常用算法之智能计算(三)》:机器学习计算机器学习计算(Machine Learning Computing)主要设计和分析一些让计算机可以自动“学习”的算法,是一类从数据中自动分析获得规律、利用规律,对未来数据进行分类、聚类和预测等的一类算法。因为机器学习计算中涉及了大量的统计学理论,机器学习与统计推断的联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习计算关注可以http://www.kepu.cn/blog/zhangjianzhong/201903/t20190327_475625.html
11.综述机器学习中的12类算法腾讯云开发者社区最近在研究一些机器学习方面的论文,翻到了一篇较早的机器学习综述(2017年),虽然不是最新的研究现状,但考虑到经典机器学习算法其实发展并不像深度学习那么迅猛,所以其论述还是很有参考性。本文就其中关于机器学习算法分类的一段进行选摘翻译,以供参考。原文链接可通过阅读原文查阅。 https://cloud.tencent.com/developer/article/1851686