基于人民网新闻标题的短文本自动分类研究传媒|机器学习算法分类_在线学习

自动文本分类技术将人类从繁琐的手工分类中解放出来，使分类任务变的更为高效，为进一步的数据挖掘和分析奠定基础。对于新闻来说，简短的新闻标题是新闻内容的高度总结，针对短文本的分类研究一直是自动文本分类技术的研究热点。本文基于人民网观点频道中的数据，采用深度学习中的卷积神经网络（CNN）和循环神经网络中的长短时记忆模型（LSTM）组合起来，捕捉短文本表达的语义，对短文本自动文本分类进行智能化实现，为新闻网站的新闻分类实现提供参考。

关键字：深度学习，LSTM，CNN，新闻，文本分类

一、引言

面对规模巨大且不断增长的文本信息，依靠人工将海量的文本信息分类是不现实的。近些年来，借助机器学习技术完成分类任务已成为主流[1][2]，计算机可以通过不断学习获得经验技能，对未知的问题可以给出一个正确的分类标签。因此，通过机器学习，可以对新闻平台上的大量数据进行自动化分类，帮助用户提高检索效率，提升用户阅读体验，同时可以在分类的基础上分析与挖掘有用的信息，协助网站运营人员了解用户需求，让信息更有效的被利用，这也是本文的研究意义所在。

二、研究背景及现状

而新闻文本分类问题，几乎是伴随着新闻本身而生的。从传统的报纸媒体开始，就有手工分类。但是随着网络化的普及以及新闻更新的高频性，新闻网络平台中出现了大量的新闻信息累积，手工分类已经难以满足目前的数据需求。新闻数据的文本分类是中文文本分类的重要的研究方向之一，网络平台上的新闻文本数据库，是研究中文本文分类的重要数据源。

因此，本文面向网络新闻平台本文数据，充分考虑短文本特征，提出了集成机器学习算法和深度学习算法的CNN+LSTM分类模型，力图解决新闻自动分类问题。

三、分类方法原理

3.1、文本分类算法

一般来说，文本分类模型需要提前标注好类别的语料作为训练集，属于有监督的学习，核心问题是选择合适的分类算法，构建分类模型。本文采用了随机梯度下降、在线被动攻击算法、线性支持向量分类、岭回归和梯度提升5种分类算法，集成构成模型。

随机梯度下降(SGD)通过一次只考虑单个训练样本来近似真实的梯度，算法在训练样本上遍历，用每一个样本对模型的权重参数进行一次更新。和梯度下降相比，SGD使用单个样本来近似，收敛速度快，对高维度特征适应性较好，但计算得到的并不是准确的一个梯度，容易陷入到局部最优解中。而梯度下降的代价函数计算需要遍历所有样本，每次迭代都要遍历，直至达到局部最优解。但是在面临训练集较大的情况，梯度下降的收敛速度比较慢，兼顾计算量和效率，SGD不失为一种折中的选择。

线性支持向量分类（LinearSVC）是基于liblinear实现的线性支持向量分类器，它在惩罚和丢失函数的选择上具有更大的灵活性，计算效率高，可以更好的适应较大的训练集。

岭回归（RidgeRegression）是一种专门用于共线性数据分析的有偏估计方法，是一种改良的最小二乘估计法，它放弃最小二乘的无偏性，通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题，以损失部分信息、降低精度为代价，获得更符合实际的回归系数，最大限度地减少了一个惩罚的误差平方和。

梯度提升(GradientBoosting)。Boosting是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。GradientBoosting就是对Boosting思想的一种实现，它是以弱预测模型的集合的形式产生预测模型。通过调节决策树的数目、树的最大深度，叶子节点包含样本的最大数目等参数，可以调节模型的性能。

3.2卷积神经网络(CNN)

本文采用了卷积神经网络作为深度学习模型，捕捉文本中邻接词的语义的特点，得到文本可能的邻接词语义组合序列。卷积神经网络是人工神经网络的一种，如图1，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量，避免了传统识别算法中复杂的特征提取和数据重建过程。[9]

卷积神经网络中主要包括卷积层、池化/采样层、全连接层等结构。

卷积层会将一个二维数据通过过滤器过滤，卷积计算如图2所示：

四、新闻分类模型

本文提出的新闻标题分类模型，首先选择了随机梯度下降、在线被动攻击算法、线性支持向量分类、岭回归和梯度提升5种机器学习算法集成训练，然后将深度学习中的卷积神经网络（CNN）和循环神经网络中的长短时记忆模型（LSTM）组合起来，综合考虑近邻信息和长序信息，下层利用CNN对邻接词的语义捕捉的特点得到文本可能的邻接词语义组合序列，上层利用LSTM来整体把握文本的上下文语义关系。然后进行模型集成，形成最终模型。

4.1机器学习算法集成

SGD、PA、LinearSVC、RidgeRegression这些算法均是基于词袋模型，自变量是特征词典的大小，所以为了后期更方便地进行模型调优，在自变量的初步筛选中，按照特征工程的流程，对特征词典进行了分组测试，选取特征词典维度为[10000,45000]区间分8组进行试验。

在自变量初步筛选的基础上，对各个算法进行参数调优，从而得到算法的初步调优结果。经实验对比发现，当特征数为35000时，各个模型的F1值达到最好，即当特征词典选取为35000时，可作为最终训练参数。当特征数目较少时，不能很好的对文本语义的完整度进行建模，当特征数目过多时，反而会引入较多的语义噪声。特征工程的目的在于能够找到一组超参数，找到二者的权衡点，达到模型既能对文本语义有很好的建模，又能最大程度的降低噪声的影响。如表1所示，是各个模型在特征参数为35000时的准确率、召回率和F1值：

为了提高整体模型的泛化能力和分类性能，本文采用了ensemble集成的思想，将上述5个机器学习算法集成使用，如图8所示。调优过程选取了比较常用的套袋算法（bagging），bagging是bootstrapaggregating的缩写，是第一批用于多分类器集成算法，该集成方法包括在一个训练集合上重复训练得到的多个分类器。给定一个大小为N的训练集合，bagging方法构建了n个新的训练集合S1，S2...Sn,每个训练集合都是由随机抽取的N个样本进行训练得到的。

在分类预测的过程中，集成模型形成类似委员会机制，每个模型对待分类的文本都有一个预测标签，最后的输出标签根据所有分类器的统计投票确定。各模型的预测标签越一致，则分类的置信度越高，反之，各个模型的分类标签差别越大，分类的置信度越低。

4.2深度学习算法集成

传统的机器学习算法召回率较高，但在上下文语义的理解上不如深度学习。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。至今已有数种深度学习框架，如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

本文主要采用深度学习中的卷积神经网络（CNN）和循环神经网络中的长短时记忆模型（LSTM）组合起来，捕捉短文本表达的语义，并在语义识别效果上，要优于基于词袋模型的普通机器学习算法[11][12]。卷积神经网络（CNN）通过借助不同的滤波器尺寸（filtersize）可以有效捕捉文本邻接组合词的语义；长短时序模型（LSTM）有利于解决上下文语义的长时依赖问题。

4.3算法评价指标

算法评价矩阵一般指对于算法预测效果和实际值的比较在本文中，采用了常用的分类衡量指标准确率（Accuracy）、召回率（Recall）和基于二者的调和平均值的综合指标F1值。

(8)

五、实验过程

5.1数据选择及数据预处理

字符在文本中并不具备具体的语义，只是起到语义停顿、连接、结束的作用，在文本分类上，经常作为无用字符处理。一般的处理方法是直接匹配过滤。因此，本文采用正则匹配的方法，对输入的文本数据进行全角半角转换、标点字符匹配过滤等操作。

中文文本并不像英文文本那样，带有空格作为各个单词的分隔符。在汉语表达中，词可以看作是语义的最小单元。中文文本分类中，经常采用分词操作对一段汉语文本进行切词处理，即将文本表示成多个中文词语的形式。文本分词，有利于后续采用向量空间模型进行算法模型训练。目前业界常见的分词工具包括jieba分词、清华的分词工具以及斯坦福的分词包。其中jieba分词在词性标注、分词准确率、分词粒度和性能上都相对较好，因此本文主要采用jieba（0.38版本）进行文本分词操作。

5.2文本表示

文本表示，也称为文本向量化，就是把文本表达为可以让计算机来理解的形式。常见的文本向量化手段包括词袋模型(bagofwords)和文本分布式表示(如Word2vec)。本文中采用了多个机器学习算法和深度学习算法，其中在机器学习算法中，主要采用了词袋模型，即通过进行特征工程，筛选出主要贡献度大的特征和特征数目，构建特征词典，进而将文本词映射为词ID；在深度学习模型中，主要采用文本分布式表示，本文采用了预训练的Word2vec向量，为保证预训练的语料尽可能正确的表示中文词的语义空间，采用了搜狗实验室3.5G的全网语料，选取语义空间维度100进行无监督训练得到，每一维度用浮点型数据表示。

整个数据预处理过程及文本表示如表2所示。

5.3模型参数

本文将深度学习模型与机器学习模型集成在一起，各取所长，在分类效果上取得了更好的结果。在对文本进行相同方法的预处理以后，并非像机器学习那样，利用词袋模型构建文本向量，而是采用预训练的word2vec进行词到语义空间的映射。每个词id都被表征为语义空间的100维的向量，每条文本表示为sequence_len×100的二维数组。训练采用batch的方式进行训练。表3是深度学习时的各个参数配置说明。

基于深度学习的模型在泛化能力上具有很大的优势，能够避免基于词袋模型的机器学习对部分词比较敏感的问题。当文本的长度低于一定值时深度学习模型可能存在较大的误差，为了解决超短文本带来的偏差，此项目采用了以深度模型为主，机器学习模型为辅助的集成模型，同时在部分类目上采用深度优先的原则，即深度模型具有一票否决权。

5.4实验结果示例

将人民网观点频道中的新闻标题，利用机器学习算法和CNN+LSTM深度学习算法集成的模型进行分类，正确预测的几种典型标题及对应的分类标签和结果如表4所示，其中标签1代表文化，标签8代表教育，10代表农业。

六、结论

针对中文短文本的特点，本文以新闻标题为实验数据，利用word2vec有效地提取新闻标题中语义信息，构建了基于机器学习和深度学习的分类模型，实现了网络新闻平台上新闻标题的自动分类，对新闻网站的建设及更深一步的信息挖掘，有一定的推动意义。未来，可以以此为基础，分析用户的阅读新闻的类型喜好，实现新闻个性化推荐，给用户带来更良好的体验与服务。

THE END

基于人民网新闻标题的短文本自动分类研究传媒

机器学习十大算法！入门看这个就够了~

机器学习算法的基本概念分类和评价标准，以及一些常用的机器学习算法的原理和特点

概述机器学习经典算法

基于人民网新闻标题的短文本自动分类研究传媒

毕业设计基于机器学习的垃圾邮件分类算法研究与实现

机器学习算法中分类知识总结！分类器阈值样本