关于文本舆情数据的6个分析方法

用户舆情信息包括文本、音频、图片等各种各样的形式,在实际工作中,我们应用较多的还是文本类的用户舆情。综合考虑数量、丰富性、易获得性、信息匹配度等方面因素,文本之于音视频、图片而言的信息价值、性价比都是相对比较高的。

当我们从电商、论坛、应用市场、新闻媒介等渠道平台取到大量和调研目标相匹配的用户舆情文本后,具体应该如何应用?其中可能包含哪些对用研有价值的内容?可以通过什么方法提炼分析?能实现什么预期效果?根据以往项目经验,文本舆情分析的价值和具体应用如下图所示:

这些信息既描述说明了“是什么”的问题,也可以表明属性、关系、喜好,说明是“怎么样”的,还能在一定程度上分析表象背后的原因,分析“为什么”,可以挖掘出包含其中的焦点、趋势、关联,帮助我们了解产品的市场反馈和用户需求,为方向聚焦、策略引导、价值判断提供依据。

分析文本舆情数据,主要用到的是文本分析的方法。因为文本数据是非结构化的,拿到文本舆情之后的一个关键问题是要把数据转化为能被计算机理解和处理的结构化数据,然后才可能进一步对用户舆情数据进行完整系统的处理分析,从无关冗余的数据中提炼出有意义的部分。

过程中需要用到的工具有:

我们还应根据需要对数据进行重新编码。例如在网易云课堂的某次舆情分析中,用户大量提及了中国大学MOOC,但表达方式有多种(如中M、中国大学慕课、慕课)。为了便于分析,统一编码是非常必要的。

分词就是把一段中文文本切割成一个个单独的词。中文分词的难点在于书写中文时字词之间并没有明显的间隔或划分,不像英文那样可以根据自然书写的间隔实现基本的分词(如“wearefamily”可以直接拆分出“we”“are”“family”)。

汉字书写表达时没有明显的分隔符,再加上汉语博(那)大(么)精(复)深(杂),大大增加了中文分词的难度。这里举一个经典的例子:短语“南京市长江大桥”中由于有些词语存在歧义,计算机的分词结果可能是“南京市/长江/大桥”,也可能是“南京/市长/江大桥”。我们显然知道第一种情况是正确的,但如果算法还不够完善计算机就可能出错,毕竟两种结果基于汉语构词和语法规则都是说得通的。可见具体在实际进行分词的时候,结果可能存在一些不合理的情况。基于算法和中文词库建成分词系统后,还需要通过不断的训练来提高分词的效果,如果不能考虑到各种复杂的汉语语法情况,算法中存在的缺陷很容易影响分词的准确性。

词频就是某个词在文本中出现的频次。简单来说,如果一个词在文本中出现的频次越多,这个词在文本中就越重要,就越有可能是该文本的关键词。这个逻辑本身没有问题,但其中有一些特殊情况需要留意。

最关键的一点就是在关于自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。根据经典“齐夫定律”的定义,假设我对文本进行分词处理并统计了词频,发现词频排名TOP3的三个词分别为“的”、“是”、“它”,那么“的”出现频率应该约为“是”的2倍,约为“它”的3倍。结果就可能会是词频排名靠前的高频词占去了整个语料的大半,其余多数词的的出现频率却很少。

所以不能完全直接的基于词频来判断舆情文本中哪些是重要的关键词,词频最高的其实是中文中的常用字,而非对当前文本最有代表性的关键词。如下图的词频曲线所示,只有出现在曲线中间区域的词才是真正在当前文本中出现频率高,并且在其他文本中很少出现的,这些词语就是当前文本的关键词,对当前文本具有重要性和代表性。前端的高频词和靠后的长尾低频词都可排除在考虑范围之外。

基于这个原理,在词频统计之前需要过滤掉文本中的停用词(stopword)。出现在词频曲线头部的那些高频词,就多数是停用词。停用词还包括实际意义不大但使用频率高的功能性词汇,比如“啊”、“的”、“在”、“而且”这样的语气词、介词、连词等等。过滤停用词还是为了减少信息冗余,提高分析的效率和准确性。过滤停用词需要的停用词表,词库都可以在网上下载。实际应用的过程中我们还可以在停用词表中添加或删减特定的词汇,使之更加完善或具有针对性,符合当前研究的实际需要。

包括分词、过滤停用词、统计高频词在内的这些操作,都可以通过ROST的分词工具完成。我们可以在ROST中导入经过完善或自定义的词库词表,替换掉ROST自带的默认词库。

根据分词结果和词云图,我们基本能做出如下判定:

但如果想要进一步知道具体内容之间的关系,就还得要继续挖掘分析这些关键词之间的结构关系。

语义网络分析是指筛选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系数值化处理,再以图形化的方式揭示词与词之间的结构关系。基于这样一个语义网络结构图,可以直观的对高频词的层级关系、亲疏程度进行分析。

其基本原理是统计出文本中词汇、短语两两之间共同出现的次数,再经聚类分析,梳理出这些词之间关系的紧密程度。一个词对出现的次数越多,就表示这两个词之间的关系越密切。每个词都有可能和多个词构成词对,也会有些词两两之间不会存在任何共线关系。关键词共现矩阵就是统计出共现单词对出现的频率,将结果构建而成的二维共现词矩阵表。

再经聚类分析处理,将关键词共现矩阵转化为语义关系网络,揭示出各节点之间的层级关系、远近关系。需要特别强调的是,语义网络分析只是根据节点的分布情况来揭示他们之间关系的紧密程度,并不能表示节点之间存在因果关联。基于共现矩阵的关键词语义网络分析,同样也可以通过ROST中的语义分析工具来完成,生成语义网络结构图供我们进行分析。

在这个语义网络图中,次级节点基本以核心节点为中心向周围辐射分布,但其中也存在局部的簇群关系,揭示出主要问题之间的潜在关联:

对用户舆情进行情感分析,主要是分析具有情感成分的词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后计算出每个语句的总值,判定其情感类别。还可以综合全文本中所有语句,判定总舆情数据样本的整体态度和情感倾向。

ROST同样也可以完成对文本情感的分析。但目前不少文献、研究认为中文情感分析的准确性不够高,因为中文除了有直接表达各种极性情感的形容词(高兴、生气),还有用于修饰情感程度的副词(很好,非常、太),有时候其中还会夹杂表示否定的词(非常不好用,很不方便)。分词处理文本时,要对形容词、副词、否定词都有正确的分词;分词后,要基于情感词库、否定词库、程度副词库对这些情感词汇进行正确的赋值;最后进行情感值加权计算,才能最终分析出总的情感类别。

总的来看,用户舆情具备有优势特点:

在用研工作中,用户舆情分析能让我们在特定的研究背景下,以更小的代价了解到产品的市场反馈,用户的态度认知和需求痛点,有效的达到研究目的。

作者:曾玫媚,网易产品发展部用盐一枚。目前对接网易中小学教育产品网易100分的用户研究工作,正在努力为浇(zhé)灌(mó)祖国的花朵添砖加瓦。

THE END
1.Starfish帮助驯服大量非结构化数据Farmer详细阐述了非结构化数据问题的本质,以及Starfish的解决方案。“我们要解决的问题是‘这些文件到底是什么?’”他说。“在文件管理方面,除非你有强大的工具,否则你无法处理数十亿个文件。你什么也做不了。”在桌面文件系统上运行搜索,需要几分钟才能找到一个特定的文件。尝试在由数十亿个单独文件组成的并行文件https://baijiahao.baidu.com/s?id=1797317209676947810&wfr=spider&for=pc
2.6款好用的数据分析工具推荐!有哪些好用的数据分析工具推荐?我之前已经写过非常多的关于数据可视化工具测评类的内容了,这篇主要整合了一些适合中小型企业的数据可视化工具。 里面大部分都是简单易上手的,并且允许自定义设计,比较灵活。 01 帆软FineBI——最适合商业智能 (BI) 综合指数? 适用人群:使用BI产品和服务并需要商业https://zhuanlan.zhihu.com/p/716814767
3.一款适合需要处理大量非结构化AI数据的工具来自AIGCLINK一款适合需要处理大量非结构化AI数据的工具:datachain,支持多模态API调用和本地AI推理并行处理 可以用它结合大模型一起使用,来完成复杂的数据分析任务,比如做,数据处理和清洗、LLM分析和验证、图像分割等 https://weibo.com/3894431038/OFb0Kp9kY
4.了解结构化数据与非结构化数据的差异有多种工具可用于处理和分析非结构化数据。这些工具有助于从各种数据格式中提取信息。突出显示处理非结构化数据的工具的最简单方法是根据它们处理的数据类型。 介绍 数据用途广泛,有多种形式,并且可以通过多种方式进行组织。一种常见的分类是结构化或非结构化数据,具有不同的存储、处理和分析方法。了解这些差异有助于https://www.51cto.com/article/789229.html
5.非结构化数据怎么用数据库分析帆软数字化转型知识库非结构化数据可以通过以下方式进行数据库分析:使用NoSQL数据库、进行数据预处理、借助大数据技术、使用数据可视化工具,如FineBI。NoSQL数据库特别适合处理非结构化数据。NoSQL数据库,如MongoDB和Cassandra,提供了灵活的数据模型,可以处理各种类型的非结构化数据,包括文本、图像和视频。通过NoSQL数据库,数据分析师可以更方https://www.fanruan.com/blog/article/507380/
6.非结构化数据采集ETL必备10种工具推荐我心飞翔非结构化数据是指那些没有特定格式和组织的数据,比如文本文档、邮件、音频、视频等。这些数据通常难以用传统的关系型数据库来存储和处理。然而,非结构化数据却蕴含着极其重要的信息,因此越来越多的企业开始重视非结构化数据的采集和分析。在这篇文章中,我们将介绍8种常用的非结构化数据采集工具。 https://www.iteye.com/blog/gaozzsoft-2539359
7.Hive如何处理JSONXML等非结构化数据问答Hive是一个用于在Hadoop上执行SQL查询的数据仓库工具,通常用于处理结构化数据。对于非结构化数据,如JSON、XML等数据,可以通过以下方法处理: 使用Hive中的内置函数:Hive提供了一些内置函数,如get_json_object()函数用于解析JSON数据,xpath()函数用于解析XML数据。通过这些函数,可以提取非结构化数据中的关键信息。 使用https://www.yisu.com/ask/45227883.html
8.什么是非结构化数据?-旧有工具缺陷:传统的数据处理工具和技术,如SQL等,无法处理非结构化数据的庞杂分析需求。 解决非结构化数据挑战的方案 为了有更好的应对非结构化数据挑战,我们可以从以下几个方面入手。 -自然语言处理技术:使用自然语言处理技术,将非结构化数据转化为可处理的结构化数据,方便进行数据分析。 https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
9.人工智能资源浏览查阅19次。自然语言处理(NLP)是人工智能领域的一个重要分支,主要涉及对人类语言的理解和生成。NLP技术是解析和分析非结构化数据的关键工具,它使得计算机能够理解和应用人类的自然语言,从而拓宽了AI的应用范围。在NLP中,汉字的数量之多和中文的复杂性是其挑战https://download.csdn.net/download/qq_27595745/85227845
10.什么是非结构化数据?非结构化数据完整指南Elastic定义非结构化数据并探索数据示例以理解它与结构化数据有哪些不同。了解如何分析非结构化数据,非结构化数据的优点和带来的挑战。https://www.elastic.co/cn/what-is/unstructured-data
11.大数据一般用什么数据库大数据领域的数据库通常使用开源软件,如Hadoop、Cassandra等,相比于传统的商业关系型数据库,成本更低。 综上所述,大数据领域的数据库相对于传统的关系型数据库,具有更好的可扩展性、高可用性、更快的处理速度、更好的适应非结构化数据和更低的成本等优势。https://www.linkflowtech.com/news/2745
12.什么是大数据分析:定义优缺点应用机遇和风险大数据是非常庞大或非结构化的数据。它是最难分析的数据。为此,你需要先进的大数据技术和能够处理大量非结构化数据的大数据解决方案(工具)。 为什么要进行大数据分析?答案很简单:大数据中常常隐藏着丰富的信息,这些信息可以帮助你的企业或机构表现得更好。你会突然开始看到一些用常规数据分析无法发现的模式。你进行大数据https://www.jianshu.com/p/b9d679d7cd33
13.1+X大数据财务分析职业技能等级标准3.4 结构化数据 structured data 一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都 是一致的并且可以使用关系模型予以有效描述。 3[GB/T 35295-2017,定义02.02.13] 3.5 非结构化数据 unstructured data 不具有预定义模型或未以预定义方式组织的数据。 https://www.scsw.edu.cn/kjx/info/1007/1309.htm
14.如何更高效传输非结构化数据?Zilliz推出全新数据迁移服务我们正不断努力,期望推动数据和 AI 技术发展,降低其使用门槛,提升这些技术的灵活性,满足真实应用场景的需求。我们邀请社区中的每一位成员加入这段旅程,为强大的非结构化数据处理工具做出贡献,并从中获益。让我们携手合作,塑造向量数据库的未来,共创一个更开放、高效和创新的 AI 生态系统。https://maimai.cn/article/detail?fid=1847841730&efid=QZItTZuoCOfFfXOU6j_aaQ
15.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
16.中软国际四款审计产品入选“高质量智能审计工具目录”在中国信通院组织的智能审计工具能力验证权威评估中,中软国际智审工具、审计智搜、协同文书编辑工具、非结构化数据分析工具等四款审计产品顺利通过检验,以突出的技术能力成功入选首批“高质量智能审计工具目录”。 12月15日,由中国信通院主办的“2023 GOLF+ IT新治理领导力论坛”在北京召开,论坛以“筑牢治理根基,共建https://www.elecfans.com/d/2342579.html
17.海康威视:2023年年度报告股票频道智能物联领域存在大量的非结构化数据,数据规模巨大、信息密度低。 为此,海康威视从数据采集、数据存储、数据处理、数据分析、数据治 理、数据安全、数据应用等相关大数据技术维度入手,逐步夯实大数据 基础架构,建立起一整套完善的大数据技术体系,以更好实现智能物联 https://stock.stockstar.com/notice/SN2024041900050978.shtml
18.结构化数据vs.非结构化数据基础设施CIO时代网典型的人为非结构化数据包括: 文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。 电子邮件:由于其元数据,电子邮件具有一些内部结构,人们有时将其称之为半结构化。但是,其消息字段是非结构化的,传统的分析工具无法解析它。 社交媒体:来自Facebook、Twitter和LinkedIn的数据。 https://www.ciotimes.com/Infrastructure/147367.html
19.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
20.数据架构:大数据数据仓库以及DataVault按照数据处理方式进行划分的原因是,重复型非结构化数据几乎完全是通过一个管理Hadoop的固定设施来处理的。对于重复型非结构化数据而言,其重点完全集中在对大数据管理器(例如Hadoop)中的数据进行访问、监视、显示、分析和可视化。 非重复型非结构化数据的重点则几乎完全集中在文本消歧上。这里的重点在于消歧的类型、输出的https://www.ituring.com.cn/book/tupubarticle/11854
21.行政管理论文15篇这势必导致学生处理社会现实问题和交往能力的技能很难有所提升,他们的知识结构、能力结构和素质明显存在不平衡,很难适应信息社会高速发展的需要。操作性和实践性教学严重薄弱。虽然目前我国高校《行政管理学》课程内容体系一般都设置了教学实习、实训等实践环节,但由于其时间短、任务重,而且管理松散,缺乏常态化和规范化,https://www.ruiwen.com/lunwen/6220159.html