基于人民网新闻标题的短文本自动分类研究传媒|有哪些高效的学习算法的方法_在线学习

自动文本分类技术将人类从繁琐的手工分类中解放出来，使分类任务变的更为高效，为进一步的数据挖掘和分析奠定基础。对于新闻来说，简短的新闻标题是新闻内容的高度总结，针对短文本的分类研究一直是自动文本分类技术的研究热点。本文基于人民网观点频道中的数据，采用深度学习中的卷积神经网络（CNN）和循环神经网络中的长短时记忆模型（LSTM）组合起来，捕捉短文本表达的语义，对短文本自动文本分类进行智能化实现，为新闻网站的新闻分类实现提供参考。

关键字：深度学习，LSTM，CNN，新闻，文本分类

一、引言

面对规模巨大且不断增长的文本信息，依靠人工将海量的文本信息分类是不现实的。近些年来，借助机器学习技术完成分类任务已成为主流[1][2]，计算机可以通过不断学习获得经验技能，对未知的问题可以给出一个正确的分类标签。因此，通过机器学习，可以对新闻平台上的大量数据进行自动化分类，帮助用户提高检索效率，提升用户阅读体验，同时可以在分类的基础上分析与挖掘有用的信息，协助网站运营人员了解用户需求，让信息更有效的被利用，这也是本文的研究意义所在。

二、研究背景及现状

而新闻文本分类问题，几乎是伴随着新闻本身而生的。从传统的报纸媒体开始，就有手工分类。但是随着网络化的普及以及新闻更新的高频性，新闻网络平台中出现了大量的新闻信息累积，手工分类已经难以满足目前的数据需求。新闻数据的文本分类是中文文本分类的重要的研究方向之一，网络平台上的新闻文本数据库，是研究中文本文分类的重要数据源。

因此，本文面向网络新闻平台本文数据，充分考虑短文本特征，提出了集成机器学习算法和深度学习算法的CNN+LSTM分类模型，力图解决新闻自动分类问题。

三、分类方法原理

3.1、文本分类算法

一般来说，文本分类模型需要提前标注好类别的语料作为训练集，属于有监督的学习，核心问题是选择合适的分类算法，构建分类模型。本文采用了随机梯度下降、在线被动攻击算法、线性支持向量分类、岭回归和梯度提升5种分类算法，集成构成模型。

随机梯度下降(SGD)通过一次只考虑单个训练样本来近似真实的梯度，算法在训练样本上遍历，用每一个样本对模型的权重参数进行一次更新。和梯度下降相比，SGD使用单个样本来近似，收敛速度快，对高维度特征适应性较好，但计算得到的并不是准确的一个梯度，容易陷入到局部最优解中。而梯度下降的代价函数计算需要遍历所有样本，每次迭代都要遍历，直至达到局部最优解。但是在面临训练集较大的情况，梯度下降的收敛速度比较慢，兼顾计算量和效率，SGD不失为一种折中的选择。

线性支持向量分类（LinearSVC）是基于liblinear实现的线性支持向量分类器，它在惩罚和丢失函数的选择上具有更大的灵活性，计算效率高，可以更好的适应较大的训练集。

岭回归（RidgeRegression）是一种专门用于共线性数据分析的有偏估计方法，是一种改良的最小二乘估计法，它放弃最小二乘的无偏性，通过施加一个惩罚系数的大小解决了一些普通最小二乘的问题，以损失部分信息、降低精度为代价，获得更符合实际的回归系数，最大限度地减少了一个惩罚的误差平方和。

梯度提升(GradientBoosting)。Boosting是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。GradientBoosting就是对Boosting思想的一种实现，它是以弱预测模型的集合的形式产生预测模型。通过调节决策树的数目、树的最大深度，叶子节点包含样本的最大数目等参数，可以调节模型的性能。

3.2卷积神经网络(CNN)

本文采用了卷积神经网络作为深度学习模型，捕捉文本中邻接词的语义的特点，得到文本可能的邻接词语义组合序列。卷积神经网络是人工神经网络的一种，如图1，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量，避免了传统识别算法中复杂的特征提取和数据重建过程。[9]

卷积神经网络中主要包括卷积层、池化/采样层、全连接层等结构。

卷积层会将一个二维数据通过过滤器过滤，卷积计算如图2所示：

四、新闻分类模型

本文提出的新闻标题分类模型，首先选择了随机梯度下降、在线被动攻击算法、线性支持向量分类、岭回归和梯度提升5种机器学习算法集成训练，然后将深度学习中的卷积神经网络（CNN）和循环神经网络中的长短时记忆模型（LSTM）组合起来，综合考虑近邻信息和长序信息，下层利用CNN对邻接词的语义捕捉的特点得到文本可能的邻接词语义组合序列，上层利用LSTM来整体把握文本的上下文语义关系。然后进行模型集成，形成最终模型。

4.1机器学习算法集成

SGD、PA、LinearSVC、RidgeRegression这些算法均是基于词袋模型，自变量是特征词典的大小，所以为了后期更方便地进行模型调优，在自变量的初步筛选中，按照特征工程的流程，对特征词典进行了分组测试，选取特征词典维度为[10000,45000]区间分8组进行试验。

在自变量初步筛选的基础上，对各个算法进行参数调优，从而得到算法的初步调优结果。经实验对比发现，当特征数为35000时，各个模型的F1值达到最好，即当特征词典选取为35000时，可作为最终训练参数。当特征数目较少时，不能很好的对文本语义的完整度进行建模，当特征数目过多时，反而会引入较多的语义噪声。特征工程的目的在于能够找到一组超参数，找到二者的权衡点，达到模型既能对文本语义有很好的建模，又能最大程度的降低噪声的影响。如表1所示，是各个模型在特征参数为35000时的准确率、召回率和F1值：

为了提高整体模型的泛化能力和分类性能，本文采用了ensemble集成的思想，将上述5个机器学习算法集成使用，如图8所示。调优过程选取了比较常用的套袋算法（bagging），bagging是bootstrapaggregating的缩写，是第一批用于多分类器集成算法，该集成方法包括在一个训练集合上重复训练得到的多个分类器。给定一个大小为N的训练集合，bagging方法构建了n个新的训练集合S1，S2...Sn,每个训练集合都是由随机抽取的N个样本进行训练得到的。

在分类预测的过程中，集成模型形成类似委员会机制，每个模型对待分类的文本都有一个预测标签，最后的输出标签根据所有分类器的统计投票确定。各模型的预测标签越一致，则分类的置信度越高，反之，各个模型的分类标签差别越大，分类的置信度越低。

4.2深度学习算法集成

传统的机器学习算法召回率较高，但在上下文语义的理解上不如深度学习。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。至今已有数种深度学习框架，如深度神经网络、卷积神经网络和深度置信网络和递归神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

本文主要采用深度学习中的卷积神经网络（CNN）和循环神经网络中的长短时记忆模型（LSTM）组合起来，捕捉短文本表达的语义，并在语义识别效果上，要优于基于词袋模型的普通机器学习算法[11][12]。卷积神经网络（CNN）通过借助不同的滤波器尺寸（filtersize）可以有效捕捉文本邻接组合词的语义；长短时序模型（LSTM）有利于解决上下文语义的长时依赖问题。

4.3算法评价指标

算法评价矩阵一般指对于算法预测效果和实际值的比较在本文中，采用了常用的分类衡量指标准确率（Accuracy）、召回率（Recall）和基于二者的调和平均值的综合指标F1值。

(8)

五、实验过程

5.1数据选择及数据预处理

字符在文本中并不具备具体的语义，只是起到语义停顿、连接、结束的作用，在文本分类上，经常作为无用字符处理。一般的处理方法是直接匹配过滤。因此，本文采用正则匹配的方法，对输入的文本数据进行全角半角转换、标点字符匹配过滤等操作。

中文文本并不像英文文本那样，带有空格作为各个单词的分隔符。在汉语表达中，词可以看作是语义的最小单元。中文文本分类中，经常采用分词操作对一段汉语文本进行切词处理，即将文本表示成多个中文词语的形式。文本分词，有利于后续采用向量空间模型进行算法模型训练。目前业界常见的分词工具包括jieba分词、清华的分词工具以及斯坦福的分词包。其中jieba分词在词性标注、分词准确率、分词粒度和性能上都相对较好，因此本文主要采用jieba（0.38版本）进行文本分词操作。

5.2文本表示

文本表示，也称为文本向量化，就是把文本表达为可以让计算机来理解的形式。常见的文本向量化手段包括词袋模型(bagofwords)和文本分布式表示(如Word2vec)。本文中采用了多个机器学习算法和深度学习算法，其中在机器学习算法中，主要采用了词袋模型，即通过进行特征工程，筛选出主要贡献度大的特征和特征数目，构建特征词典，进而将文本词映射为词ID；在深度学习模型中，主要采用文本分布式表示，本文采用了预训练的Word2vec向量，为保证预训练的语料尽可能正确的表示中文词的语义空间，采用了搜狗实验室3.5G的全网语料，选取语义空间维度100进行无监督训练得到，每一维度用浮点型数据表示。

整个数据预处理过程及文本表示如表2所示。

5.3模型参数

本文将深度学习模型与机器学习模型集成在一起，各取所长，在分类效果上取得了更好的结果。在对文本进行相同方法的预处理以后，并非像机器学习那样，利用词袋模型构建文本向量，而是采用预训练的word2vec进行词到语义空间的映射。每个词id都被表征为语义空间的100维的向量，每条文本表示为sequence_len×100的二维数组。训练采用batch的方式进行训练。表3是深度学习时的各个参数配置说明。

基于深度学习的模型在泛化能力上具有很大的优势，能够避免基于词袋模型的机器学习对部分词比较敏感的问题。当文本的长度低于一定值时深度学习模型可能存在较大的误差，为了解决超短文本带来的偏差，此项目采用了以深度模型为主，机器学习模型为辅助的集成模型，同时在部分类目上采用深度优先的原则，即深度模型具有一票否决权。

5.4实验结果示例

将人民网观点频道中的新闻标题，利用机器学习算法和CNN+LSTM深度学习算法集成的模型进行分类，正确预测的几种典型标题及对应的分类标签和结果如表4所示，其中标签1代表文化，标签8代表教育，10代表农业。

六、结论

针对中文短文本的特点，本文以新闻标题为实验数据，利用word2vec有效地提取新闻标题中语义信息，构建了基于机器学习和深度学习的分类模型，实现了网络新闻平台上新闻标题的自动分类，对新闻网站的建设及更深一步的信息挖掘，有一定的推动意义。未来，可以以此为基础，分析用户的阅读新闻的类型喜好，实现新闻个性化推荐，给用户带来更良好的体验与服务。

THE END

基于人民网新闻标题的短文本自动分类研究传媒

高效能学习方法范文

AI工程师基础知识100题Anitaff

什么是深度学习？深度学习的工作原理

RM圆桌005抢人头要靠自瞄

图像分类技术有哪些？图像分类技术通常应用在哪里？

下一代人工智能方法重大研究计划项目指南发布政策资讯

网络工程的研究方向范文

一文梳理类脑计算的前世今生中科院自动化所研究员李国齐神经网络神经元算法

ADL131《向量学习与搜索》开始报名线上线下同步举办

基于人民网新闻标题的短文本自动分类研究传媒

解决不均衡数据集的分类方法有哪些？人工智能

115个优先发展领域！《国家自然科学基金“十四五”发展规划》全文发布科技动态中国河南濮阳市科学技术局