关于文本舆情数据的6个分析方法

用户舆情信息包括文本、音频、图片等各种各样的形式,在实际工作中,我们应用较多的还是文本类的用户舆情。综合考虑数量、丰富性、易获得性、信息匹配度等方面因素,文本之于音视频、图片而言的信息价值、性价比都是相对比较高的。

当我们从电商、论坛、应用市场、新闻媒介等渠道平台取到大量和调研目标相匹配的用户舆情文本后,具体应该如何应用?其中可能包含哪些对用研有价值的内容?可以通过什么方法提炼分析?能实现什么预期效果?根据以往项目经验,文本舆情分析的价值和具体应用如下图所示:

这些信息既描述说明了“是什么”的问题,也可以表明属性、关系、喜好,说明是“怎么样”的,还能在一定程度上分析表象背后的原因,分析“为什么”,可以挖掘出包含其中的焦点、趋势、关联,帮助我们了解产品的市场反馈和用户需求,为方向聚焦、策略引导、价值判断提供依据。

分析文本舆情数据,主要用到的是文本分析的方法。因为文本数据是非结构化的,拿到文本舆情之后的一个关键问题是要把数据转化为能被计算机理解和处理的结构化数据,然后才可能进一步对用户舆情数据进行完整系统的处理分析,从无关冗余的数据中提炼出有意义的部分。

过程中需要用到的工具有:

我们还应根据需要对数据进行重新编码。例如在网易云课堂的某次舆情分析中,用户大量提及了中国大学MOOC,但表达方式有多种(如中M、中国大学慕课、慕课)。为了便于分析,统一编码是非常必要的。

分词就是把一段中文文本切割成一个个单独的词。中文分词的难点在于书写中文时字词之间并没有明显的间隔或划分,不像英文那样可以根据自然书写的间隔实现基本的分词(如“wearefamily”可以直接拆分出“we”“are”“family”)。

汉字书写表达时没有明显的分隔符,再加上汉语博(那)大(么)精(复)深(杂),大大增加了中文分词的难度。这里举一个经典的例子:短语“南京市长江大桥”中由于有些词语存在歧义,计算机的分词结果可能是“南京市/长江/大桥”,也可能是“南京/市长/江大桥”。我们显然知道第一种情况是正确的,但如果算法还不够完善计算机就可能出错,毕竟两种结果基于汉语构词和语法规则都是说得通的。可见具体在实际进行分词的时候,结果可能存在一些不合理的情况。基于算法和中文词库建成分词系统后,还需要通过不断的训练来提高分词的效果,如果不能考虑到各种复杂的汉语语法情况,算法中存在的缺陷很容易影响分词的准确性。

词频就是某个词在文本中出现的频次。简单来说,如果一个词在文本中出现的频次越多,这个词在文本中就越重要,就越有可能是该文本的关键词。这个逻辑本身没有问题,但其中有一些特殊情况需要留意。

最关键的一点就是在关于自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。根据经典“齐夫定律”的定义,假设我对文本进行分词处理并统计了词频,发现词频排名TOP3的三个词分别为“的”、“是”、“它”,那么“的”出现频率应该约为“是”的2倍,约为“它”的3倍。结果就可能会是词频排名靠前的高频词占去了整个语料的大半,其余多数词的的出现频率却很少。

所以不能完全直接的基于词频来判断舆情文本中哪些是重要的关键词,词频最高的其实是中文中的常用字,而非对当前文本最有代表性的关键词。如下图的词频曲线所示,只有出现在曲线中间区域的词才是真正在当前文本中出现频率高,并且在其他文本中很少出现的,这些词语就是当前文本的关键词,对当前文本具有重要性和代表性。前端的高频词和靠后的长尾低频词都可排除在考虑范围之外。

基于这个原理,在词频统计之前需要过滤掉文本中的停用词(stopword)。出现在词频曲线头部的那些高频词,就多数是停用词。停用词还包括实际意义不大但使用频率高的功能性词汇,比如“啊”、“的”、“在”、“而且”这样的语气词、介词、连词等等。过滤停用词还是为了减少信息冗余,提高分析的效率和准确性。过滤停用词需要的停用词表,词库都可以在网上下载。实际应用的过程中我们还可以在停用词表中添加或删减特定的词汇,使之更加完善或具有针对性,符合当前研究的实际需要。

包括分词、过滤停用词、统计高频词在内的这些操作,都可以通过ROST的分词工具完成。我们可以在ROST中导入经过完善或自定义的词库词表,替换掉ROST自带的默认词库。

根据分词结果和词云图,我们基本能做出如下判定:

但如果想要进一步知道具体内容之间的关系,就还得要继续挖掘分析这些关键词之间的结构关系。

语义网络分析是指筛选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系数值化处理,再以图形化的方式揭示词与词之间的结构关系。基于这样一个语义网络结构图,可以直观的对高频词的层级关系、亲疏程度进行分析。

其基本原理是统计出文本中词汇、短语两两之间共同出现的次数,再经聚类分析,梳理出这些词之间关系的紧密程度。一个词对出现的次数越多,就表示这两个词之间的关系越密切。每个词都有可能和多个词构成词对,也会有些词两两之间不会存在任何共线关系。关键词共现矩阵就是统计出共现单词对出现的频率,将结果构建而成的二维共现词矩阵表。

再经聚类分析处理,将关键词共现矩阵转化为语义关系网络,揭示出各节点之间的层级关系、远近关系。需要特别强调的是,语义网络分析只是根据节点的分布情况来揭示他们之间关系的紧密程度,并不能表示节点之间存在因果关联。基于共现矩阵的关键词语义网络分析,同样也可以通过ROST中的语义分析工具来完成,生成语义网络结构图供我们进行分析。

在这个语义网络图中,次级节点基本以核心节点为中心向周围辐射分布,但其中也存在局部的簇群关系,揭示出主要问题之间的潜在关联:

对用户舆情进行情感分析,主要是分析具有情感成分的词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后计算出每个语句的总值,判定其情感类别。还可以综合全文本中所有语句,判定总舆情数据样本的整体态度和情感倾向。

ROST同样也可以完成对文本情感的分析。但目前不少文献、研究认为中文情感分析的准确性不够高,因为中文除了有直接表达各种极性情感的形容词(高兴、生气),还有用于修饰情感程度的副词(很好,非常、太),有时候其中还会夹杂表示否定的词(非常不好用,很不方便)。分词处理文本时,要对形容词、副词、否定词都有正确的分词;分词后,要基于情感词库、否定词库、程度副词库对这些情感词汇进行正确的赋值;最后进行情感值加权计算,才能最终分析出总的情感类别。

总的来看,用户舆情具备有优势特点:

在用研工作中,用户舆情分析能让我们在特定的研究背景下,以更小的代价了解到产品的市场反馈,用户的态度认知和需求痛点,有效的达到研究目的。

作者:曾玫媚,网易产品发展部用盐一枚。目前对接网易中小学教育产品网易100分的用户研究工作,正在努力为浇(zhé)灌(mó)祖国的花朵添砖加瓦。

THE END
1.理解数据类型:每个数据科学爱好者都应该知道的数据结构现在的大量数据中,大部分是非结构化的,即没有预定义模型/结构的数据。如图像,是像素的集合,文本数据是没有预定义储存模型的字符序列,以及用户在Web应用程序上操作的点击流。非结构化数据所需要处理的地方在于,需要通过预处理等方法转化为结构化数据,以便对结构化数据应用统计方法获取原始数据中的重要信息。 https://www.528045.com/article/d32b356ce2.html
2.数据分析常用的知识点概括众所周知,统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不那么准确,比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的。而统计学可以帮助我们以更科学的角度看待数据,逐步接近这个数据背后的“真相”。 大部分的数据分析,都会用到统计方面的https://mp.weixin.qq.com/s?__biz=MzA3NzIxNDQ3MQ==&mid=2650329307&idx=1&sn=a8acceeb61e80f30140e97cb94f5c059&chksm=86fc3b0e8e011cb7b5774fd8ddeac196609601fc74c38130b8619d2c15ef06adc9328cce132c&scene=27
3.四不像正版资料,构建解答解释落实m418.39.40看点在数据分析的世界里,我们经常会遇到各种看似杂乱无章的数据,这些数据就像“四不像”一样,难以直接归类和解释,正是这些“四不像”的数据,往往蕴含着最有价值的信息,本文将深入探讨如何构建、解答和落实这些“四不像”的正版资料,以期为数据分析师提供一套实用的方法论。 https://www.yzcjl.cn/post/5569.html
4.分不清结构化半结构化和非结构化数据?来看这篇!2、针对半结构化、非结构化数据 针对半结构化、非结构化数据,因为数据分散,缺乏统一管理,需要借用专业工具,目前有两种方式来处理半结构、非结构化数据:①提取半结构、非结构化数据中的关键信息,到结构化数据中进行二次利用,比较好处理的是半结构化(json、xml)、excel、csv,因为这种数据的结构比较统一。②向word、https://zhuanlan.zhihu.com/p/6334917409
5.大模型时代企业知识全生命周期管理解决方案比如,集团制订的归档范围未将一些应归档但无法通过系统流转的文档纳入其中,部门相当一部分非结构化文档数据仍保存在个人电脑之中,导致企业文档数据资产存在着流失的风险。2. 失真非结构化数据往往都质量不高,必须进行数据清理才能进行组织。对于公司来说,清理和准备大量数据过程中就会看到很多失真现象。举个例子:https://baijiahao.baidu.com/s?id=1792924033127896800&wfr=spider&for=pc
6.结构化半结构化和非结构化数据都有哪些数据可以根据其格式和可访问性被分类为结构化数据、半结构化数据和非结构化数据。下面是每种数据类型的定义和一些例子: 结构化数据 结构化数据是指遵循固定格式的数据,通常存储在关系数据库中。这种数据类型易于搜索和组织,因为它遵循一定的模式(如表格),每个数据项都有明确的字段。 https://www.jianshu.com/p/7018b1bef624
7.非结构化数据是什么并且有什么例子呢?问答非结构化数据是无法以二维表来逻辑表达实现的数据,主要的示例为网购记录、通讯记录、出行记录等。https://developer.aliyun.com/ask/443233
8.大数据中非结构化数据的挖掘:文本一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的数据,包括原始LOG日志以及已经被结构化入库中的部分数据,比如Adobe Analytics的Data Feed,Webtrekk中的Raw Data。当然,有些数据虽然是文本或字符串的形式,但并不是真正意义上的非结构化,比如https://www.51cto.com/article/432085.html
9.结构化半结构化和非结构化数据腾讯云开发者社区有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,标签是树的根节点,和标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。 三、非结构化数据https://cloud.tencent.com/developer/article/1351609
10.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇到https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
11.engineering):利用领域知识和现有数据,创造出新的特征,用于具体涵盖了结构化与非结构化、定量与定性数据的区分,数据清洗中的数据对齐、缺失值处理、异常值处理等方法,特征构造中的统计量构造、周期值、数据分桶、特征组合,特征选择的三种形式及多种具体方法,特征变换的标准化、归一化、区间缩放、非线性变换等,还讨论了离散变量处理和降维的多种方法,并在最后进行了总结。https://juejin.cn/post/6874516288149028872
12.取其精华!设计师读书笔记连载系列之《简约至上》优设网5、非结构化数据 系统要求用户输入信息:2016-04-06,当你少输入一个数字或者输入错误时,就会提示你。向用户转移用在这里并不合适,用户非常反感强制性的做法。如果你能仅仅让用户输入:明天,本周五,七天后这些字符便能识别,用户一定更为愉悦 记得最开始使用siri的时,凌晨一点多,我想让Siri明上八点叫醒我,我们的对话https://www.uisdc.com/note-for-simple-and-usable
13.云计算大数据和人工智能结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。 非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页,有时候非常长,有时候几句话就没了;例如语音,视频都是非结构化的数据。 https://dsjzx.scy.cn/info/1041/2192.htm
14.分享关于非结构化Excel表格数据整合,抽取的方案一个SQL在上万个不规范的非结构化Excel文档上运行 导出成结构化数据 下面是一个SQL语法和例子:在SQLhttps://club.excelhome.net/thread-1658916-1-1.html&ordertype=1
15.什么是文本挖掘?IBM半结构化数据:顾名思义,这些数据由结构化和非结构化数据格式混合而成。 虽然这种数据经过了一定的组织,但其结构不足以满足关系数据库的要求。 半结构化数据的例子包括 XML、JSON 和 HTML 文件。 由于世界上约 80% 的数据都属于非结构化格式(链接位于 ibm.com 外部),因此对于组织而言,文本挖掘是一种非常有价值https://www.ibm.com/cn-zh/topics/text-mining